- 博客(265)
- 资源 (4)
- 收藏
- 关注
原创 Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
针对多模态大语言模型(MLLM)扩展过程中计算成本高、模态支持有限的问题,本文提出基于混合专家(MoE)架构的统一多模态大语言模型Uni-MoE。通过引入特定模态编码器与连接器,模型实现了文本、图像、音频、视频等多种模态的统一表征,并在密集型语言模型中嵌入稀疏MoE架构,仅需激活部分参数即可完成高效训练与推理。跨模态对齐(通过多模态数据训练连接器)、模态专家训练(利用交叉模态数据优化专家网络)和联合调优(基于混合多模态指令数据微调整体模型)。
2025-05-07 10:00:40
297
原创 多模态大语言模型arxiv论文略读(六十三)
为了改进这一点,研究团队构建了一个包含人类对英语-印地语(en-hi)混合编码文本可接受性判断的数据集Cline,旨在区分自然的混合编码文本,并实现质量控制的混合编码文本生成。➡️ 方法简介:研究团队提出了一种系统的方法,通过利用MLLMs生成大规模的图像-文本对,来训练一个可迁移的模型。2)减少合成文本描述中的噪声影响。为了提升模型在3D场景中的理解和推理能力,研究团队开发了一个大规模的2D和3D预训练数据集LV3D,并提出了一个新的MLLM模型Cube-LLM,通过纯数据扩展来实现强大的3D感知能力。
2025-05-07 08:37:23
472
原创 多模态大语言模型arxiv论文略读(六十二)
➡️ 研究动机:为了解决上述挑战,研究团队提出了OmniDrive,这是一个全面的框架,旨在实现3D感知、推理和规划的强对齐。OmniDrive不仅提出了一个新颖的3D MLLM架构,还引入了一个新的基准测试OmniDrive-nuScenes,该基准测试涵盖了全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D定位、反事实推理、决策和规划。为了深入理解幻觉的成因,并探索有效的检测和缓解方法,研究团队对MLLMs中的幻觉现象进行了全面的分析和综述,旨在为未来的研究和应用提供有价值的见解和指导。
2025-05-07 08:35:28
411
原创 多模态大语言模型arxiv论文略读(六十一)
评估涵盖了不同类型的图表、地图和网页,通过计算模型生成每个选项内容的似然性来选择模型的预测答案。➡️ 方法简介:SERPENT-VLM采用了一种独特的自监督损失函数,该函数利用图像表示和生成的放射学文本的上下文表示之间的相似性,结合标准的因果语言建模目标,来精炼图像-文本表示。➡️ 研究动机:为了克服现有3D生成模型在材料生成上的局限性,研究团队提出了一种新的方法——Make-it-Real,利用多模态大型语言模型(MLLMs),特别是GPT-4V,来识别和应用真实世界的材料到广泛的3D对象上。
2025-05-06 08:37:34
530
原创 多模态大语言模型arxiv论文略读(六十)
➡️ 方法简介:研究团队提出了两种模态非特定损失目标,包括延迟EOS损失和不确定性损失,以及两种模态特定损失目标,即冗长图像的令牌多样性损失和冗长视频的帧特征多样性损失。为了进一步探索这一问题,研究团队提出了一种系统的方法,通过设计延迟EOS损失、增加输出不确定性、提高多样性等手段,来诱导MLLMs生成更长的序列,从而增加能量-延迟成本。➡️ 问题背景:现有的视频生成技术虽然取得了显著进展,但生成的视频通常缺乏音效(SFX)和背景音乐(BGM),这限制了观众的沉浸式体验。
2025-05-06 08:35:22
496
原创 多模态大语言模型arxiv论文略读(五十九)
此外,理解设计同样具有挑战性,因为这些模型可能首次遇到设计任务,而没有设计知识,如颜色的对比和和谐、不同字体的清晰度和象征意义,以及布局中的有意安排。本研究旨在评估MLLMs在VDL测试中的适用性,包括变异图像的整体语义有效性、变异图像与文本指令的一致性,以及不同变异在保持应保持不变的语义方面的忠实度。➡️ 研究动机:为了克服现有评估方法的局限性,并提供一个全面评估3D-LLMs性能的平台,研究团队开发了一个可扩展的3D基准测试(3DBench)和一个大规模的指令调优数据集。
2025-05-04 15:50:51
993
原创 多模态大语言模型arxiv论文略读(五十八)
➡️ 论文标题:MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning➡️ 论文作者:Yifan Jiang, Jiarui Zhang, Kexuan Sun, Zhivar Sourati, Kian Ahrabian, Kaixin Ma, Filip Ilievski, Jay Pujara。
2025-05-04 15:47:07
1057
原创 多模态大语言模型arxiv论文略读(五十七)
具体来说,Square方法首先利用MLLMs的文本-图像分析能力生成与图像文本内容相关的问题,然后通过多种提示技术生成答案,接着要求模型提供详细的推理过程,最后通过自评估和多提示一致性检查来过滤生成的数据,确保数据的质量。实验设计了不同的任务,如计数、空间推理和复杂的视觉问答任务,以全面评估Fact生成的推理在提高模型性能和减少幻觉方面的效果。为了进一步提升开源模型的性能,研究团队提出了一种系统的方法,通过闭源MLLMs生成大规模、高质量的文本中心VQA数据集,以提高模型的性能和减少幻觉现象。
2025-05-03 11:39:53
933
原创 多模态大语言模型arxiv论文略读(五十六)
为了评估这些模型在工程设计任务中的表现,研究团队开发了DesignQA,这是一个新的多模态基准,旨在评估MLLMs在理解和应用工程设计要求方面的能力。➡️ 问题背景:尽管大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在自然语言处理任务中展现了卓越的能力,但越南语多模态资源的缺乏限制了越南语MLLMs的发展。➡️ 研究动机:为了解决越南语多模态资源的缺乏问题,并促进越南语多模态语言理解的研究,研究团队介绍了LaVy,这是首个越南语MLLM,并且在越南视觉语言任务中达到了最先进的性能。
2025-05-03 11:34:42
894
原创 多模态大语言模型arxiv论文略读(五十五)
➡️ 实验设计:研究团队在14个不同的移动UI任务上进行了实验,包括3个来自Spotlight的任务(screen2words、widget captions、taperception)和11个针对iPhone和Android屏幕的双版本任务。现有的基准测试要么设计用于通用多模态任务,无法捕捉网页的独特特性,要么专注于端到端的网页代理任务,无法衡量细粒度的能力,如OCR、理解和定位。此外,该方法还引入了跨受试者训练策略,以学习跨受试者的通用表示,从而减少对大量训练数据的依赖,并提高模型的适应性和泛化能力。
2025-05-02 11:47:58
718
原创 多模态大语言模型arxiv论文略读(五十四)
实验设计了不同的任务类型(如情感识别和AU识别),以及不同的评估指标(如REGE,即识别和生成性能的综合指标),以全面评估模型在FABA任务中的表现。➡️ 实验设计:研究团队在五个广泛使用的文档理解基准数据集上进行了零样本实验,实验设计了不同的任务类型,包括文档密集描述、文档布局分析、表格理解等,以全面评估LayoutLLM在不同任务中的表现。然而,现有的方法在处理未见过的任务或场景时,表现出有限的泛化能力,并且忽视了机器人决策中至关重要的多模态环境信息。
2025-05-02 11:41:59
940
原创 多模态大语言模型arxiv论文略读(五十三)
实验设计了多种越狱方法,包括文本越狱和视觉越狱,以全面评估模型对越狱攻击的鲁棒性。研究发现,GPT-4和GPT-4V在文本和视觉越狱方法上表现出更好的鲁棒性,而Llama2和Qwen-VL-Chat在开源模型中表现更为稳健。实验结果表明,VTPrompt显著提高了GPT-4V和Gemini Pro在这些任务中的性能,特别是在MME和MMB数据集上,分别取得了显著的分数提升。实验结果表明,VoT显著提高了模型在所有任务中的表现,尤其是在自然语言导航任务中,VoT比禁用可视化的设置提高了23.5%的性能。
2025-05-01 22:39:56
923
原创 多模态大语言模型arxiv论文略读(五十二)
➡️ 问题背景:大型语言模型(LLMs)及其多模态版本(MLLMs)的发展为游戏代理(game agents)的进化提供了前所未有的机会,使这些代理能够在复杂的计算机游戏环境中展现出类似人类的决策能力。➡️ 研究动机:为了弥合这一差距,研究团队对基于LLM的游戏代理(LLMGAs)进行了全面的综述,旨在提供一个统一的参考框架,涵盖LLMGAs的六个核心功能组件:感知、记忆、思考、角色扮演、行动和学习。➡️ 研究动机:为了填补3D医学图像分析的空白,研究团队致力于开发适用于3D医学图像的多模态大语言模型。
2025-05-01 22:36:36
878
原创 多模态大语言模型arxiv论文略读(五十一)
➡️ 研究动机:为了探究语言-图像预训练模型是否可以从长描述中受益,研究团队首先使用预训练的多模态大型语言模型(MLLM)为3000万张图像生成详细的描述,然后在对比学习框架下研究这些长描述的使用。通过评估模型在不同扰动下的表现,研究团队希望揭示词汇重叠、跨语言迁移能力和对抗性扰动之间的关系,为未来的NLP应用提供有价值的见解。➡️ 研究动机:为了克服这些限制,研究团队提出了一种新的框架P2G,通过利用外部代理(如OCR代理和视觉定位代理)来增强MLLMs在高分辨率和文本丰富的视觉场景中的推理能力。
2025-04-30 08:54:34
978
原创 多模态大语言模型arxiv论文略读(五十)
视觉采样器从原始图像中提取包含详细信息的局部图像,视觉编码器和投影器提取视觉标记,MLLMs则整合来自原始图像和局部图像的视觉标记,以提供更精确和全面的答案。➡️ 研究动机:为了提高MLLMs的解释性和准确性,研究团队开发了一个大规模的视觉链式思维(Visual CoT)数据集,包含438,000个问题-答案对,每个对都标注了关键区域的边界框。为了减少视觉幻觉,研究团队提出了一种新的方法Pensieve,该方法通过回顾相似图像作为参考,并通过比较这些参考图像与测试图像的置信度分数来识别准确的视觉线索。
2025-04-30 08:52:15
584
原创 多模态大语言模型arxiv论文略读(四十九)
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)近年来受到了广泛的关注,它们继承了大型语言模型(LLMs)强大的语言表达和逻辑推理能力,通过整合视觉和文本信息,不仅增强了对视觉内容的理解,还为语言理解和生成提供了更全面的上下文。➡️ 研究动机:为了克服静态调优策略的局限性,研究团队提出了HyperLLaVA,通过动态调优投影器和LLM参数,结合动态视觉专家和语言专家,以提高MLLMs在不同多模态任务中的灵活性和性能。
2025-04-29 09:51:02
843
原创 多模态大语言模型arxiv论文略读(四十八)
此外,研究团队采用了一种细调策略,通过统一的VQA格式和投影层,将机器人特定的知识与MLLMs的视觉推理能力相结合,同时保留了模型原有的视觉推理能力。➡️ 研究动机:为了提高MLLMs在文本丰富图像上的视觉文档理解能力,研究团队提出了统一结构学习(Unified Structure Learning)的概念,旨在通过结构感知解析任务和多粒度文本定位任务,增强模型对文本内容和布局信息的理解。实验设计了不同的任务,如物体检测、操作可能性检测、物理概念理解等,以全面评估ManipVQA在不同任务中的表现。
2025-04-29 09:48:35
835
原创 多模态大语言模型arxiv论文略读(四十七)
➡️ 方法简介:研究团队提出了一种名为ECSO(Eyes Closed, Safety On)的新型无训练保护方法,该方法利用MLLMs的内在安全意识,通过将不安全的图像转换为文本,激活预对齐LLMs的内在安全机制,从而生成更安全的响应。为进一步提高防御效果,团队引入了一个自适应自动优化框架(AdaShield-Adaptive, AdaShield-A),该框架通过目标MLLM和防御者模型(Defender)的对话交互,自动优化防御提示,生成多样化的防御提示池,以适应不同的攻击场景。
2025-04-28 09:18:04
907
原创 多模态大语言模型arxiv论文略读(四十六)
➡️ 研究动机:为了克服上述挑战,研究团队提出了一种新的框架——DialogGen,旨在通过整合多模态大型语言模型(MLLMs)和T2I模型,构建一个多模态交互对话系统(MIDS),以实现多轮文本到图像生成。➡️ 问题背景:近年来,大型语言模型(LLMs)的发展极大地推动了自然语言处理领域,而多模态大型语言模型(MLLMs)则进一步将视觉信息与文本信息结合,以实现更广泛的任务,如图像描述、视觉问答(VQA)等。然而,当前的多模态模型在处理图像中的嵌入文本时仍面临挑战,这限制了其在现实世界中的应用。
2025-04-28 09:16:03
712
原创 Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
🏡| 📄| 🤗| 🤗。
2025-04-28 09:07:57
1222
原创 【智能体帮你复现论文】Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
📄是一个多智能体 LLM 系统,可以将论文转化为代码仓库。它遵循三阶段流水线:规划、分析和代码生成,每个阶段都由专门的智能体处理。我们的方法在 Paper2Code 和 PaperBench 上均优于强大的基线,并生成忠实、高质量的实现。
2025-04-27 17:08:10
394
原创 多模态大语言模型arxiv论文略读(四十五)
实验设计了不同因素的变化,如不同的3D图像编码器和2D MLLMs的组合,以及不同的下游任务,以全面评估Med3DInsight在不同条件下的表现。➡️ 研究动机:为了增强3D医学图像的理解,研究团队提出了一种新的预训练框架Med3DInsight,该框架结合了现有的3D图像编码器和2D MLLMs,并通过设计的Plane-Slice-Aware Transformer (PSAT) 模块将它们连接起来,旨在提高3D图像的语义理解能力,并在多个下游任务中表现出色。
2025-04-27 08:59:34
677
原创 多模态大语言模型arxiv论文略读(四十四)
这种类型的虚假信息通过将真实的图像与错误的文本结合,误导观众,而现有的检测方法往往缺乏对这些判断的合理解释。➡️ 研究动机:为了克服现有MLLMs在细粒度视觉感知和多模态交互方面的限制,研究团队提出了一种新的多模态指令调优LLM——AnyRef,该模型能够生成像素级对象感知和区域感知的自然语言描述,支持文本、边界框、图像和音频等多种模态的参考。➡️ 方法简介:研究团队设计了一种统一的多模态参考表示方法,将不同模态的输入映射到LLM的词汇空间中,通过引入特殊的标记和重新聚焦机制,增强了模型的像素级感知能力。
2025-04-27 08:58:25
841
原创 多模态大语言模型arxiv论文略读(四十三)
实验包括了不同类型的推荐模型(如基于会话的推荐模型),并通过重新排序模型的预测结果,结合从截图中提取的用户行为上下文信息,提高了推荐的准确性和相关性。➡️ 研究动机:为了解决上述问题,研究团队提出了一种新的推荐框架InteraRec,该框架利用用户浏览网页时的截图,结合多模态大语言模型(MLLMs)和优化工具,生成更加个性化和实时的推荐。➡️ 研究动机:为了应对高分辨率图像处理的挑战,研究团队开发了InfiMM-HD,这是一种创新的MLLM架构,旨在以较低的计算成本处理不同分辨率的图像。
2025-04-26 11:10:01
640
原创 多模态大语言模型arxiv论文略读(四十二)
多模态大语言模型arxiv论文略读(四十一)➡️ 研究动机:为了提高模型在处理复杂布局文档和需要推理的问题时的性能,研究团队提出了一种基于数据增强和扩展的方法,通过多模态大语言模型(MLLMs)生成分步骤的问题-答案对,并使用高性能的语言模型作为错误检测器来过滤噪声数据。➡️ 问题背景:当前的多模态大语言模型(Multi-modal Large Language Models, MLLMs)在多种视觉-语言任务中展现了卓越的能力,但这些模型主要关注于理解图像的整体视觉信息,而忽略了图像中对象之间的关系。
2025-04-26 11:07:26
1176
原创 多模态大语言模型(MLLM)- kimi-vl technical report论文阅读
kimi-vl是月之暗面团队于2025年4月10日发布的多模态大模型。代码链接:https://github.com/MoonshotAI/Kimi-VL有钱真好,超大规模数据+卓越的AI Infra+算法,造就多模态的性能小钢炮。
2025-04-25 18:19:20
1625
1
原创 多模态大语言模型arxiv论文略读(四十一)
➡️ 实验设计:研究团队在多个视觉-语言任务上进行了广泛的实验,包括基于对齐的语言生成、语言引导的分割、带有答案对齐的视觉问答和带有空间指针输入的指称对话。➡️ 研究动机:为了克服现有方法在处理长视频时的计算效率低下、训练和推理速度慢以及可能遗漏重要运动特征等问题,研究团队提出了一种新的框架——时间对齐桥(Temporal Grounding Bridge, TGB),旨在增强MLLMs的时间对齐能力,并扩展其上下文范围。该方法不仅适用于图像,也适用于视频,为未来的视觉指令调优研究提供了良好的起点。
2025-04-25 08:40:45
700
原创 多模态大语言模型arxiv论文略读(四十)
然而,研究发现,MLLM社会中存在一种新的隐蔽漏洞——恶意内容的间接传播。为了回答CoT是否能增强MLLMs的对抗性鲁棒性,以及CoT的中间推理步骤在对抗性攻击下意味着什么,研究团队对MLLMs的两个核心组件(即理由和答案)进行了攻击实验,旨在评估CoT在对抗性攻击下的表现,并探索新的攻击方法。基于观察,研究团队进一步提出了一种新的攻击方法——停止推理攻击(Stop-Reasoning Attack),该方法旨在中断模型的推理过程,迫使模型直接输出答案,即使在明确要求使用CoT的情况下也是如此。
2025-04-25 08:38:38
647
原创 多模态大语言模型arxiv论文略读(三十九)
➡️ 研究动机:为了评估MLLMs在理解多模态社交媒体内容方面的能力,研究团队开发了MM-SOC,这是一个全面的基准测试,旨在评估MLLMs在多种任务中的表现,包括虚假信息检测、仇恨言论检测和社会背景生成等。➡️ 研究动机:为了克服现有MLLMs在处理局部细节和全局理解之间的矛盾,研究团队提出了DualFocus机制,旨在通过模仿人类认知过程,首先分析整个图像以获取宏观上下文,然后识别并放大重要子区域进行详细检查,从而提高模型在视觉-语言任务中的表现。研究团队还设计了问题和参考答案,以构建完整的VH实例。
2025-04-24 08:52:35
685
原创 多模态大语言模型arxiv论文略读(三十八)
实验设计了不同的表格表示方法(如纯文本、带括号的文本、JSON格式等)和图像表示方法(如原始图像、列颜色高亮、行颜色高亮等),以及不同的提示策略,以全面评估模型在不同条件下的表现。➡️ 实验设计:实验设计了不同类型的欺骗提示,包括对象数量的错误描述、不存在的对象、对象属性的错误描述、场景理解的错误描述和文本识别的错误描述。本文综述了近期基于视觉的MLLMs,分析了它们的架构选择、多模态对齐策略和训练技术,并在多种任务上进行了详细分析,包括视觉定位、图像生成和编辑、视觉理解及特定领域的应用。
2025-04-24 08:50:44
678
原创 多模态大语言模型arxiv论文略读(三十七)
为了进一步理解这些问题,并探索解决方案,研究团队提出了一种新的范式——浏览-集中(Browse-and-Concentrate, Brote),旨在通过两阶段的方法,先对输入进行初步浏览,生成条件上下文向量,再在该向量的指导下深入理解多模态输入,从而提高模型对多图像输入的理解能力。➡️ 问题背景:当前的多模态大语言模型(MLLMs)在图形用户界面(GUI)自动化任务中展现出显著的潜力,但这些模型在实际应用中面临两大挑战:一是对强大的(M)LLMs的依赖,二是GUI环境建模的不足。
2025-04-23 09:26:34
707
原创 多模态大语言模型arxiv论文略读(三十六)
为了进一步扩展这些模型的能力,研究团队提出了一种新的框架,使多模态大语言模型(Multimodal Large Language Models, MLLMs)能够在参数中记忆并召回图像,从而直接响应用户的视觉内容查询。实验设计了不同的超参数设置,以优化DPO模型的性能,并评估了不同方法在不同任务上的表现。现有的方法通过手动标注包含和不包含幻觉的配对响应,并使用各种对齐算法来提高图像和文本之间的对齐能力,但这些方法不仅在微调阶段需要大量的计算资源,还需要昂贵的人工标注来构建对齐算法所需的配对数据。
2025-04-23 09:24:25
755
原创 多模态大语言模型arxiv论文略读(三十五)
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种生成任务中展现了卓越的能力,尤其是在视觉-语言感知(Vision-Language Perception, VLP)和图像到图像(Image-to-Image, I2I)任务中。为了进一步理解这些模型在特定领域任务中的表现不佳的原因,并探索提高其泛化能力的方法,研究团队对MLLMs在不同分布偏移和领域特定任务中的零样本泛化能力进行了全面评估。
2025-04-22 08:52:31
920
原创 多模态大语言模型arxiv论文略读(三十四)
实验设计了不同类型的攻击(如打印攻击、重放攻击、刚性面具、纸面具)和不同的模态(RGB、红外、深度),以及不同类型的伪造技术(如Deepfakes、Face2Face、FaceSwap、NeuralTextures)。此外,研究团队还提出了一种新的多属性链式思维(MA-COT)范式,用于描述和判断面部图像的各种任务特定和任务无关属性,提供丰富的任务相关知识,以挖掘细微的欺骗/伪造线索。然而,MLLMs是否对细微的视觉欺骗/伪造线索敏感,以及它们在面部攻击检测领域的表现如何,仍是一个未探索的领域。
2025-04-22 08:49:26
824
原创 多模态大语言模型arxiv论文略读(三十三)
为了克服这些问题,研究团队提出了一种新的框架GeReA,通过提示多模态大型语言模型(MLLMs)来生成与问题相关的提示标题(question-aware prompt captions),并学习一个强大的联合知识-图像-问题表示,以预测最终答案。➡️ 研究动机:为了弥补这一差距,研究团队构建了一个大规模的RS图像-文本数据集(LHRS-Align)和一个信息丰富的RS特定指令数据集(LHRS-Instruct),并提出了一个专门针对RS领域的MLLM——LHRS-Bot。
2025-04-21 08:48:20
987
原创 多模态大语言模型arxiv论文略读(三十二)
通过利用该数据集评估六个最先进的MLLMs在T2I-ICL上的表现,研究团队揭示了这些模型在解决T2I-ICL任务时遇到的主要挑战,并探讨了通过微调和链式思维提示(Chain-of-Thought prompting)等策略来缓解这些挑战的方法。此外,研究团队还分析了数据集中的问题和答案的分布情况,以及模型生成的对话的质量,以评估框架的有效性和准确性。➡️ 方法简介:研究团队提出了一种系统的方法,通过将视觉检测模型的输出转换为文本信息,并将其输入到MLLMs中,来评估不同训练策略的效果。
2025-04-21 08:46:12
1009
原创 多模态大语言模型arxiv论文略读(三十一)
➡️ 实验设计:实验设计了不同模态的输入,包括文本、代码、图像和视频,以及不同类型的评估任务,如数学能力、多语言能力、推理能力、角色扮演能力、创意写作能力、领域知识熟悉度等。然而,现有的MLLM,包括最先进的GPT-4V,仍然缺乏足够的视觉感知能力,无法作为有效的代理来操作移动设备。为了评估和理解MLLMs在多面板图像理解上的能力,研究团队提出了MultipanelVQA基准,旨在全面评估MLLMs在多面板图像理解上的表现,并通过合成数据集分析影响模型性能的各种因素。
2025-04-20 16:02:11
817
原创 多模态大语言模型arxiv论文略读(三十)
➡️ 论文标题:The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models➡️ 论文作者:Kian Ahrabian, Zhivar Sourati, Kexuan Sun, Jiarui Zhang, Yifan Jiang, Fred Morstatter, Jay Pujara。
2025-04-20 15:58:52
1214
原创 多模态大语言模型arxiv论文略读(二十九)
然而,现有的MLLM基准测试主要评估基于单个图像的静态信息的推理能力,而对图像序列的推理能力,即理解不断变化的世界的能力,研究较少。因此,研究团队开发了InferAligner,一种利用跨模型指导的推理时间对齐方法,旨在提高模型的安全性,同时保持下游任务的性能。➡️ 方法简介:研究团队提出了一种系统的方法,通过构建LLMRA框架,利用预训练的多模态大语言模型生成退化图像的文本描述,并通过上下文增强模块(CEM)和基于退化上下文的Transformer网络(DC-former)将这些描述集成到恢复网络中。
2025-04-19 11:10:48
984
原创 多模态大语言模型arxiv论文略读(二十八)
➡️ 实验设计:研究团队在MM-SAP基准上评估了13个流行的MLLMs,通过计算scorekk(正确回答已知问题的比例)、scoreku(正确拒绝回答未知问题的比例)和scoresa(scorekk和scoreku的总和)来衡量模型的自我意识。因此,研究团队构建了一个新的IFT数据集,旨在提高MLLMs在多轮对话设置中的表现。➡️ 问题背景:多模态大语言模型(MLLMs)在视觉感知和理解方面展现了卓越的能力,但这些模型也存在幻觉问题,即生成与输入图像不一致的响应,这限制了它们作为可靠AI系统的应用。
2025-04-19 11:08:22
911
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人