hanscalZheng-CSDN博客

原创 Emoji2Idiom：对多模态大型语言模型的神秘符号理解进行基准测试

首先，从互联网和公开资源中获取与表情符号相关的原始数据，包括游戏截图、视频片段和网络数据库，同时通过文本生成相应的表情符号序列以扩充数据多样性。利用算法进行初步数据过滤，删除重复、缺失或质量低下的样本，同时检测并剔除不符合伦理要求（如暴力、歧视性内容）的数据。由语言和图像专家进一步审核数据，确保表情符号与文本之间的语义关联清晰，并剔除语义模糊、不符合常规语言使用习惯或过于复杂的样本。对表情符号和文本配对进行标准化处理，避免过多重复映射，调整或替换频繁出现的谐音字符映射以提高数据多样性。

2025-01-19 21:35:38 499

原创从多模态生物观察中学习的因果表示

文章提出了一种理论和实践结合的框架，用于从多模态生物学数据中识别潜在因果变量，以提升数据解释性和应用可靠性。论文题目：CausalRepresentationLearningfromMultimodalBiologicalObservations论文链接：https://arxiv.org/pdf/2411.06518PS:欢迎大家扫码关注公众号^_^，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-19 21:33:07 422

原创 YouCLIP：通过高效培训推进多语言跨模态学习

文章提出了一种名为YouCLIP的多语言跨模态学习方法，通过高效的三阶段微调将英文CLIP模型转化为性能领先的中文CLIP模型，显著提升了跨语言和跨模态任务的效率与效果，同时支持中英文双语。论文题目：YouCLIP:AdvancingMultilingualCross-ModalLearningwithEfficientTraining论文链接：https://openreview.net/forum?PS:欢迎大家扫码关注公众号^_^，我们一起在AI的世界中探索前行，期待共同进步。

2025-01-19 21:30:37 927

原创 E5-V：具有多模态大型语言模型的通用嵌入

文章介绍了E5-V框架，通过多模态大语言模型和单模态文本训练实现统一的多模态嵌入，在多种任务中表现出色，并显著降低了训练成本。论文题目：E5-V:UniversalEmbeddingswithMultimodalLargeLanguageModels论文链接：https://arxiv.org/pdf/2407.12580PS:欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-19 21:27:53 550

原创一种用于黑盒多模态大型语言模型的基于内存高效梯度的越狱方法

本文提出了Zer0-Jack，一种基于零阶梯度优化的高效黑箱越狱方法，能够通过生成恶意图像输入攻击多模态智能体，绕过安全机制并显著减少内存消耗。论文题目： Zer0-Jack: A memory-efficient gradient-based jailbreaking method for black box Multi-modal Large Language Models论文链接： https://arxiv.org/pdf/2411.07559PS: 欢迎大家扫码关注公众号。

2025-01-15 23:55:41 455

原创多模态长对话中的分布外检测

本文提出了一种新的跨模态OOD检测框架DIAEF，通过结合图像和对话的评分机制，提升了智能体在长对话中的异常检测能力。论文题目： ‘No’ Matters: Out-of-Distribution Detection in Multimodality Long Dialogue论文链接： https://arxiv.org/pdf/2410.23883PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-15 23:51:02 365

原创 LLM 表格阅读：弥合文本和表格之间的语义差距

表格编码器：该组件通过二维注意力机制，从表格中提取结构化的语义信息，将表格的单元格内容转化为紧凑的向量表示。· 表格-语言适配器：将表格编码器生成的列级嵌入与语言模型的文本空间对接，通过跨注意力机制实现嵌入的有效聚合和对齐。· LLM解码器：结合表格的高阶语义表示，利用多模态推理能力在下游任务中进行表格数据的处理。· 训练流程：TNT的训练流程包括三个阶段：表格编码器的预训练、表格-语言特征对齐和智能体指令微调，确保表格表示可以有效地与语言智能体对接，提升表格理解和生成能力。

2025-01-15 23:48:26 356

原创通过多模态多回合思维链推理理解模棱两可的指令

本文提出了VISUAL-O1框架，通过模拟人类的多模态多轮思维链推理，帮助智能体在面对模糊指令时结合视觉上下文进行推理，从而更准确地理解和执行指令。论文题目： Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning论文链接： https://arxiv.org/abs/2410.03321PS: 欢迎大家扫码关注公众号。

2025-01-15 23:35:04 520

原创减少Zero-shot多模态模型中的虚假相关性

文章提出了一种新的方法（TIE）来解决视觉语言模型（VLMs）中zero-shot分类任务中的虚假相关性问题，通过文本提示引导图像嵌入的翻译，提升智能体的群体鲁棒性。论文题目： Mitigating Spurious Correlations in Zero-Shot Multimodal Models论文链接： https://openreview.net/forum?PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-13 00:06:45 313

原创 CoCoP：将文本分类任务转换为LLM代码补全任务

文章提出了一种名为CoCoP的文本分类方法，通过将分类任务转化为代码补全任务，利用智能体在代码相关任务中的能力显著提升文本分类性能。论文题目： CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt论文链接： https://arxiv.org/abs/2411.08979PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-13 00:03:14 316

原创 Zero-shot知识测试LLM的推理幻觉

本文提出了一种新的“幻觉推理”方法，通过区分对齐、错位和捏造三种类型的幻觉，利用零样本技术提高智能体生成文本幻觉检测的准确性。论文题目： LLM Hallucination Reasoning with Zero-shot Knowledge Test论文链接： https://arxiv.org/abs/2411.09689PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-13 00:00:02 504

原创 G-LLaVA：使用多模态大语言模型求解几何问题

本文提出了G-LLaVA智能体，通过构建增强的几何数据集Geo170K，显著提高了多模态大语言模型在几何问题解决中的表现。论文题目： G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model论文链接： https://arxiv.org/abs/2312.11370PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-12 23:57:30 865

原创多模态大型语言模型中的跨模态一致性

本文探讨了多模态智能体中的跨模态一致性问题，提出了一个新的评估框架，并通过实验揭示了视觉和语言模态之间的显著差异及其改进方法。论文题目： Cross-Modal Consistency in Multimodal Large Language Models论文链接： https://arxiv.org/abs/2411.09273PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-03 16:52:04 1445

原创用于多智能体终身寻路的共享内存

本文提出了一种共享递归记忆变换器（SRMT）方法，通过共享全局记忆来提升多智能体系统中的协调性，在多智能体路径规划任务中取得了优异的表现。论文题目： Shared Memory for Multi-agent Lifelong Pathfinding论文链接： https://openreview.net/forum?PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-03 16:48:13 471

原创 WorkflowLLM：增强大语言模型的工作流编排能力

文章提出了WorkflowLLM框架，通过构建大规模数据集WorkflowBench并对智能体进行微调，显著提升了大语言模型在工作流编排中的能力。论文题目： WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models论文链接： https://arxiv.org/abs/2411.05451PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-03 16:43:21 541

原创 Q-SFT：通过监督微调对语言模型进行 Q-Learning

本文提出了一种新的离线强化学习算法Q-SFT，通过将Q值学习转化为监督微调问题，从而有效地在多回合任务中微调预训练的智能体模型，提升其在语言生成和机器人控制等任务中的表现。论文题目： Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning论文链接： https://arxiv.org/abs/2411.05193PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2025-01-03 16:42:02 408

原创一种适用于小型语言模型的训练后增强优化方法

本文提出了一种针对小型语言模型的后训练优化方法，通过构建对齐数据并结合监督微调（SFT）和卡尼曼-特维斯基优化（KTO）等技术，显著提升了智能体的性能。论文题目： A Post-Training Enhanced Optimization Approach for Small Language Models论文链接： https://arxiv.org/abs/2411.02939PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-15 15:29:33 404

原创 LLM作为方法参与者：提示工程和架构模型

文章提出了将大规模语言模型（LLM）视为“智能体”的心理模型，以优化提示工程和任务架构，从而显著提高其在复杂推理任务中的表现。论文题目： LLMs as Method Actors: A Model for Prompt Engineering and Architecture论文链接： https://arxiv.org/abs/2411.05778PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-15 15:26:26 393

原创从视觉丰富的文章中提取多模态信息

文章介绍了MATVIX，一个专注于从科学文献中提取多模态信息的基准，旨在通过使用智能体和视觉语言模型提升材料科学领域的数据提取效率。论文题目： MatViX: Multimodal Information Extraction from Visually Rich Articles论文链接： https://arxiv.org/abs/2410.20494PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-15 15:23:11 657

原创多模态和单模态对比学习的比较

文章通过理论分析和实验证明，多模态对比学习相比单模态对比学习在特征学习和下游任务泛化能力上具有显著优势，尤其是在智能体应用中。论文题目： On the Comparison between Multi-modal and Single-modal Contrastive Learning论文链接： https://arxiv.org/abs/2411.02837PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-15 15:20:50 1353

原创使用 MLLMU-Bench 保护多模态大模型中的隐私

本文介绍了“多模态大语言模型机器遗忘基准”（MLLMU-Bench），旨在评估多模态大语言模型在隐私保护方面的机器遗忘能力。论文题目： Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench论文链接： https://arxiv.org/abs/2410.22108PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-08 07:46:26 615

原创使用持续学习改进多模态大型语言模型

LoRA（低秩适配）LoRA是一种在保持原始语言模型权重不变的情况下，通过学习低秩更新来适应新任务的方法。这种方式能够在多模态模型中引入新知识，同时减轻语言遗忘的现象。· 软目标软目标技术通过对训练标签进行平滑处理，降低目标分布的偏差，以减轻模型在新任务训练中的性能下降。这种方法使得模型在学习新任务时能更好地保留之前任务的知识，从而有效减少语言遗忘。· 重演（经验重演）重演方法涉及在学习新任务时，将之前任务的数据混合使用，以保持对先前知识的记忆。

2024-12-08 07:42:40 705

原创使用多模式、自主、多智能体系统的个性化推荐系统

本文介绍了一种基于多模态和自主智能体的个性化推荐系统，该系统通过整合先进的人工智能技术和大语言模型，旨在提升电子商务中的客户体验与产品推荐效果。论文题目： Personalized Recommendation Systems using Multimodal, Autonomous, Multi Agent Systems论文链接： https://arxiv.org/abs/2410.19855PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-08 07:36:21 1546

原创偏好链优化改进大语言模型

论文提出了偏好链优化（CPO）方法，通过对大型语言模型进行微调，使其在复杂问题推理中生成更优的逻辑推理路径，同时显著降低推理复杂性。论文题目： Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs论文链接： https://arxiv.org/abs/2406.09136PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-08 07:33:12 367

原创探索多模态隐喻检测中的思维链

文章提出了一种名为C4MMD的框架，通过链式思维方法增强智能体对多模态隐喻的检测能力，显著提高了模型的表现。论文题目： Exploring Chain-of-Thought for Multi-modal Metaphor Detection论文链接： https://aclanthology.org/2024.acl-long.6/PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-03 22:55:50 639

原创探索多模态大语言模型中的顺序敏感性

本文研究了多模态大语言模型（MLLMs）对输入顺序的敏感性，发现调整输入内容的位置可以显著提高模型在视频描述匹配和视觉问答任务中的表现，并提出了新指标位置不变准确率（PIA）来评估模型性能。论文题目： Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models论文链接： https://arxiv.org/abs/2410.16983PS: 欢迎大家扫码关注公众号。

2024-12-03 22:53:26 902

原创文本到图像模型的整体评估

文章提出了HEIM基准，通过全面评估12个关键方面，旨在深入理解文本到图像生成智能体的能力与风险。论文题目： Holistic Evaluation of Text-To-Image Models论文链接： https://arxiv.org/abs/2311.04287PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-03 22:50:15 502

原创通过学习感知策略梯度的多智能体协作

本文提出了一种新的策略梯度算法，通过学习意识使自利的独立学习智能体在复杂的社交困境中实现合作，从而提高整体回报和学习效果。论文题目： Multi-agent cooperation through learning-aware policy gradients论文链接： https://arxiv.org/abs/2410.18636PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-12-03 22:40:24 621

原创自适应多模态检索-增强生成

本文提出了一种新的方法，即自适应多模态检索增强生成（SAM-RAG），通过动态筛选相关文档和验证生成结果，显著提升多模态任务中的检索准确性和生成质量。论文题目： Self-adaptive Multimodal Retrieval-Augmented Generation论文链接： https://arxiv.org/abs/2410.11321v1PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-11-29 14:10:02 622

原创使用人工智能反馈的强化学习调优多模态视频模型

文章提出了一种利用人工智能反馈强化学习（RLAIF）来优化视频大型多模态模型（VLMMs）的视频与文本对齐的方法，显著提升了模型在视频理解任务中的表现。论文题目： Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback论文链接： https://arxiv.org/abs/2402.03746PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-11-29 14:06:26 662

原创调查 CoT 增强蒸馏的奥秘

文章研究了通过“链式推理”增强模型蒸馏，发现将推理链附加在目标标签后能显著提升小型模型性能，即使推理链不连贯或仅使用少量关键词汇。论文题目： Investigating Mysteries of CoT-Augmented Distillation论文链接： https://arxiv.org/abs/2406.14511PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-11-29 13:56:17 864

原创在缺乏连接的多智能体系统中建立共识

文章的“主要结果的证明”部分通过三个定理的证明，提出并验证了新的条件，这些条件在较弱的假设下也能保证多智能体系统最终收敛到共识。论文题目： Consensus in Multiagent Systems with lack of connection论文链接： https://arxiv.org/abs/2410.10486PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-11-29 13:50:55 418

原创解耦视觉编码以实现统一的多模态理解和生成

本文提出了Janus框架，通过解耦视觉编码路径来提升多模态理解与生成性能，并超越现有统一模型。论文题目： Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation论文链接： https://arxiv.org/abs/2410.10486PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-11-22 14:55:44 536

原创改进多智能体对抗游戏中的团队组建

文章提出了BERTeam，一种结合了基于Transformer的深度神经网络和协同进化深度强化学习的新算法，用于在多智能体对抗性游戏中形成最佳团队，并在“海洋夺旗”游戏场景中表现优于现有算法。论文题目： Transformer Guided Coevolution: Improved Team Formation in Multiagent Adversarial Games论文链接： https://arxiv.org/abs/2410.13769PS: 欢迎大家扫码关注公众号。

2024-11-22 14:35:06 462

原创从图形频谱角度重新审视对话中的多模态情感识别

本文提出了一种基于图形频谱的多模态一致性与互补特征协作学习框架（GS-MCC），旨在提高对话中的多模态情感识别能力，通过有效捕捉长距离依赖和多模态信息的协作，从而提升情感识别的准确性。论文题目： Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum论文链接： https://arxiv.org/abs/2404.17862PS: 欢迎大家扫码关注公众号。

2024-11-20 18:36:40 473 1

原创基于多模态生理信号的跨个体情感识别多层解缠网络

这篇文章提出了一种多层解缠网络（MDNet），旨在通过同时建模多模态生理信号的一致性和异质性，以及跨个体的个体差异，实现更高效的跨个体情感识别。论文题目： Multi-level Disentangling Network for Cross-Subject Emotion Recognition Based on Multimodal Physiological Signals论文链接： https://www.ijcai.org/proceedings/2024/340。

2024-11-20 18:34:03 582

原创机器人故障的多模态一致性解释生成

文章提出了一种方法，通过检测和改善多模态解释的一致性，以生成关于机器人故障的更清晰、可理解的解释，从而提升用户对机器人行为的理解和信任。论文题目： Multimodal Coherent Explanation Generation of Robot Failures论文链接： https://arxiv.org/abs/2410.00659PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-11-20 18:31:16 496

原创 PTDE: 用于多智能体强化学习的个性化训练与蒸馏

本文提出了一种名为PTDE（个性化训练与蒸馏执行）的新范式，通过个性化全球信息和知识蒸馏，实现多智能体强化学习中的去中心化执行，显著提升了智能体的协作性能。论文题目： PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning论文链接： https://arxiv.org/abs/2210.08872PS: 欢迎大家扫码关注公众号，并回复“资料”获取书籍学习资源。

2024-11-20 18:24:34 684

原创多模态兴趣点推荐

本文提出了一种基于多模态数据的兴趣点推荐模型，通过结合用户的历史就餐记录、餐厅属性和食品图像描述，以提升餐厅推荐的准确性和用户体验。论文题目： Multimodal Point-of-Interest Recommendation论文链接： https://arxiv.org/abs/2410.03265PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-11-16 23:10:24 493

原创 AutoML-Agent：用于自动机器学习的多智能体框架

文章提出了一种名为AutoML-Agent的多智能体框架，旨在通过整合大型语言模型（LLM）实现全流程的自动化机器学习，从数据获取到模型部署，简化AI开发过程，提高非专业用户的可用性。论文题目： AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML论文链接： https://arxiv.org/abs/2410.02958PS: 欢迎大家扫码关注公众号，我们一起在AI的世界中探索前行，期待共同进步！

2024-11-16 23:06:36 705

空空如也

空空如也