精|大多模态推理模型全面综述：感知、推理、思考与规划_多模态大模型最新调研与综述-CSDN博客

本文链接：https://blog.csdn.net/2501_90883911/article/details/147911953

AI如何实现从“笨拙思考”到“灵活推理”的跨越？从大型多模态推理模型到原生大型多模态推理模型，这场AI领域的变革暗藏哪些玄机？它们将如何重塑未来智能世界？答案即将揭晓，快来一同探索！

本文系统综述了大型多模态推理模型（LMRMs）向原生大型多模态推理模型（N-LMRMs）的演进。提出LMRMs发展的三阶段路线图，包括感知驱动的模块化推理、以语言为中心的短推理、以语言为中心的长推理，并分析各阶段技术特征。引入N-LMRMs概念，阐述其多模态智能体推理和全模态理解与生成性推理能力，探讨技术实现路径。同时对相关数据集和基准测试进行分类总结，最后指出当前面临的挑战及未来研究方向。

摘要&解读

推理是智能的核心，它塑造了人们在不同领域进行决策、得出结论和进行归纳的能力。在人工智能领域，随着系统越来越多地在开放、不确定和多模态的环境中运行，推理对于实现稳健且自适应的行为至关重要。大型多模态推理模型（LMRMs）作为一种有前景的范式应运而生，它整合了文本、图像、音频和视频等多种模态，以支持复杂的推理能力。其目标是实现全面感知、精准理解和深度推理。随着研究的不断推进，多模态推理已迅速从模块化、感知驱动的流程发展为统一的、以语言为中心的框架，这种框架能够提供更连贯的跨模态理解。尽管指令调整和强化学习提高了模型的推理能力，但在全模态泛化、推理深度和智能体行为方面仍存在重大挑战。为了解决这些问题，我们对多模态推理研究进行了全面而系统的综述，围绕一个四阶段的发展路线图展开，该路线图反映了该领域不断变化的设计理念和新兴能力。首先，我们回顾了早期基于特定任务模块的研究工作，在这些工作中，推理隐含地嵌入在表示、对齐和融合的各个阶段。接下来，我们研究了最近将推理统一到多模态大语言模型（LLMs）中的方法，诸如多模态思维链（MCoT）和多模态强化学习等进展，使得推理链更加丰富和结构化。最后，基于具有挑战性的基准测试的实证见解以及OpenAI O3和O4-mini的实验案例，我们探讨了原生大型多模态推理模型（N-LMRMs）的概念方向，其旨在支持在复杂的现实世界环境中进行可扩展、智能体式的自适应推理和规划。通过综合历史趋势和新兴研究，本综述旨在阐明当前的研究现状，并为下一代多模态推理系统的设计提供参考。

• 研究背景： 随着人工智能应用场景复杂度提升，单模态信息处理难以满足需求，多模态推理模型成为研究焦点。大型多模态推理模型虽取得一定成果，但在处理复杂多模态任务、适应动态开放环境、实现类似人类的全面感知与深度推理方面存在明显不足，亟需更先进的模型来突破技术瓶颈。
• 研究贡献： 提出大型多模态推理模型三阶段发展路线图，为该领域技术演进提供清晰框架；首次引入原生大型多模态推理模型概念，明确其核心能力；系统分类多模态推理相关数据集和基准测试，完善评估体系；提出统一表示、长思维链等技术展望，为后续研究指明方向。
• 实现设计： 在大型多模态推理模型发展过程中，不同阶段采用不同技术。第一阶段通过模块化设计实现感知驱动推理；第二阶段借助MCoT、结构化推理和外部增强推理，实现以语言为中心的短推理；第三阶段运用跨模态推理、多模态 - O1和多模态 - R1，完成系统2思考与规划。对于原生大型多模态推理模型，通过统一表示和跨模态融合、交错多模态长思维链、从世界经验中学习和进化、数据合成等技术实现其核心能力。
• 实验结果： 全模态基准测试中，现有模型在处理多模态输入时表现不佳，如OmniMMI基准测试中商业模型平均准确率低于20% ，在视听问答任务中开源和闭源模型性能远低于单模态场景。智能体基准测试显示，模型在现实世界定位、长程推理规划、工具集成等方面存在短板，如BrowseComp基准测试中GPT - 4o准确率仅0.6%。对OpenAI o3和o4 - mini的初步研究表明，它们虽具备多模态推理能力，但存在语言干扰视觉、文件处理失误、推理编造等问题。

图 1：大型多模态推理模型的核心路径

1. 引言
2. 多模态推理范式的演进与探讨
3. 多模态推理模型的发展路线图
3.1 第一阶段：感知驱动的模块化推理——开发特定任务的推理模块
3.1.1 模块化推理网络
3.1.2 基于预训练视觉语言模型的模块化推理
3.2 第二阶段：以语言为中心的短推理——系统1推理
3.2.1 基于提示的MCoT
3.2.2 结构化推理
3.2.3 外部增强推理
3.3 第三阶段：以语言为中心的长推理——系统2思考与规划
3.3.1 跨模态推理
3.3.2 多模态-O1
3.3.3 多模态-R1
4. 迈向原生多模态推理模型
4.1 实验结果
4.2 N-LMRMs的能力
4.3 技术展望
5. 数据集和基准测试
5.1 多模态理解
5.1.1 以视觉为中心的理解
5.1.2 以音频为中心的理解
5.2 多模态生成
5.2.1 跨模态生成
5.2.2 联合多模态生成
5.3 多模态推理
5.3.1 一般视觉推理
5.3.2 特定领域推理
5.4 多模态规划
5.4.1 GUI导航
5.4.2 具身和模拟环境
5.5 评估方法
6. 结论

1 引言

在哲学和人工智能领域，推理都被广泛认为是智能行为的基石（Kahneman, 2011; Su等人, 2024; de Winter等人, 2024; Bi等人, 2025）。它使智能体不仅能够自适应地应对环境，还能进行逻辑推理、在不同情境中进行知识迁移，并应对复杂的挑战。随着人工智能系统越来越多地与动态、不确定和多模态的环境进行交互，在各种环境中进行正确推理的能力对于实现稳健且自适应的智能至关重要（Yang等人, 2025a; Christakopoulou等人, 2024）。在这种背景下，大型多模态推理模型（LMRMs）成为了一个有前景的研究方向（Wang等人, 2024k; Zhang等人, 2024c; Yin等人, 2023），它整合了文本、图像、音频和视频等多种数据模态，并展现出复杂的推理能力，包括逻辑演绎、因果推断、类比映射和长程思维。LMRMs的核心目标是实现全面感知、精准理解和深度推理，为不同环境中的决策过程提供支持。

图2：大型多模态推理模型的发展路线图。图中框内突出显示的模型是从第3阶段向第4阶段过渡的代表性模型，如箭头所示。

多模态推理的研究进展迅速。早期的研究依赖于感知驱动的模块化流程，而最近的进展则利用大语言模型来统一多模态理解和推理（Huang等人, 2023b; Driess等人, 2023）。指令调整（Liu等人, 2023a）和强化学习（DeepSeek-AI等人, 2025）进一步提高了模型的推理性能，使其更接近人类的深思熟虑行为。尽管取得了这些快速进展，但多模态推理仍然是大型多模态模型的核心瓶颈，在泛化能力、推理深度和类似智能体的行为方面存在局限（Yue等人, 2024; Zhang等人, 2024f; Liu等人, 2024f）。

该领域之前的综述大多集中在多模态大语言模型，或者主要围绕语言的推理方法分析，缺乏对近期强化增强的多模态推理以及LMRMs技术前景的详细分析。因此，多模态推理领域需要一个连贯的框架，以理解多模态推理是如何发展的，以及它的未来走向。我们的工作填补了这一关键空白，对多模态推理模型的整个发展路线图进行了全面的回顾和分析，涵盖了早期的模块化设计和最先进的LMRMs。此外，我们基于实验结果和技术审视，对LMRMs的未来发展进行了预测。

具体而言，我们提出了一个结构化的多模态推理发展路线图，分为三个阶段（图2）：感知驱动的模块化推理，其中推理隐含在特定任务的模块中；以语言为中心的短推理（系统1），其中多模态推理通过基于提示的方法和与LLMs的结构化短思维链得以实现；以语言为中心的长推理（系统2），通过扩展推理链和强化学习，实现长程思考、规划和智能体行为。

在这一发展轨迹的基础上，我们引入了原生大型多模态推理模型（N-LMRMs）的概念，这是一种具有前瞻性的范式。在这种范式中，推理不再是事后添加到语言模型上，而是从全模态感知与交互以及目标驱动的认知中自然产生。基于统一表示、训练数据合成、从世界经验中学习以及基准构建等方面的最新进展，我们勾勒出了超越当前架构限制、推进多模态智能发展的可能方向。

我们的贡献主要体现在三个方面：

1. 本文对大型多模态推理模型（LMRM）领域进行了全面综述，涵盖了540多篇文献。我们的分析对当前模型中关键的推理局限性进行了背景化讨论并提出了解决方案（第2节）。
2. 我们提出了LMRMs从模块化推理到多模态思维链（MCoT），最终到长程、系统2推理的三阶段发展路线图。并对每个阶段进行了更详细的分类和代表性方法分析（第3节）。
3. 我们引入并分析了原生大型多模态推理模型（N-LMRMs），全面概述了其初步进展，包括架构、学习方法、数据集和基准测试，为未来的多模态智能体推理奠定了基础（第4节）。
4. 我们重新整理了现有的多模态理解和推理数据集及基准测试（更新至2025.04）（第5节），以明确它们的类别和评估维度。

2 多模态推理范式的演进与探讨

多模态推理的发展经历了一系列重大的范式转变，这反映了感知输入与结构化认知过程的更深入融合。在本节中，我们概述多模态推理系统发展的四个关键阶段，每个阶段都体现了独特的模型设计、能力和技术挑战。这种历史视角不仅有助于明确该领域的当前状态，还阐明了本综述后续章节所探讨方向的动机。

阶段1：感知驱动的模块化推理——设计特定任务的推理系统

在初始阶段，多模态推理能力是通过模块化的推理模块开发的（Andreas等人, 2016; Yang等人, 2016; Xiong等人, 2016）。这些系统通常在监督学习框架内使用卷积神经网络（CNNs）和诸如长短期记忆（LSTM）网络的循环架构。由于存在多模态数据有限、神经架构不成熟以及学习方法不完善等挑战，早期研究采用模块化设计，将推理过程分解为单独的组件：表示、对齐、融合和推理（§3.1.1）。随着该领域逐渐转向预训练 - 微调范式（Devlin等人, 2019; Radford等人, 2018, 2021），大规模多模态数据集的出现和更深层次的神经网络推动了预训练视觉 - 语言模型（VLMs）的兴起（Chen等人, 2020; Li等人, 2020; Yu等人, 2022, 2021），这些模型旨在统一表示、对齐和融合的过程（§3.1.2）。

然而，这种统一主要强调视觉表示和跨模态融合，常常以牺牲对语言的更深入语义建模为代价。结果，推理过程经常默认采用基于分类的范式，限制了上下文感知和泛化推理能力。多模态推理系统仍然依赖额外的模块或特定任务的增强。总体而言，这一阶段的推理在很大程度上仍然隐含在基础的感知处理和神经计算中。新兴的多模态语言模型通过引入强大的语言模型和大规模视觉数据，将增强隐含推理能力。

阶段2：以语言为中心的短推理——系统1推理

多模态大语言模型（MLLMs）的出现（Liu等人, 2023a; Bai等人, 2023; Chen等人, 2024j; Zhang等人, 2023c）标志着多模态推理的一个关键转变：从模块化系统转向以语言为中心的端到端框架。这些模型在视觉常识推理（VCR）（Zellers等人, 2019; Yu等人, 2024c）、视觉问答（VQA）（Goyal等人, 2017; Singh等人, 2019）和视觉定位（Peng等人, 2023; Rasheed等人, 2024; Liu等人, 2024f; Lai等人, 2024; Rasheed等人, 2024; Ren等人, 2024）等任务中取得了优异的性能。

然而，早期的MLLM架构在很大程度上依赖于表面层次的模式匹配和静态知识检索，在动态假设生成、多步逻辑推理和上下文敏感适应方面存在不足。这一局限性推动了思维链（CoT）推理的发展（Kojima等人, 2022），它将隐含推理转化为明确的中间步骤，将思维过程内化到端到端的生成中。通过将第一阶段多模态融合的表示能力与LLMs的语言表达能力相结合，CoT实现了更具上下文感知和可解释的推理。

基于CoT在纯语言模型中的成功，研究人员通过开发多模态思维链（MCoT）（Zhang等人, 2023g; Fei等人, 2024; Zhang等人, 2023b; Shao等人, 2024）将其扩展到多模态领域。早期的方法主要集中在基于提示的适应（§3.2.1），通过精心设计的指令使模型能够生成逐步的多模态推理过程。随后的工作通过引入推理路径的结构化分解（§3.2.2），或利用外部工具和检索增强来扩展模型静态知识之外的推理能力（§3.2.3），对推理过程本身进行了增强。

尽管如此，这一阶段的推理主要仍然是短程和反应式的，具有快速、直观的系统1推理的特点。模型在熟悉或有界的任务中表现有效，但在抽象、组合性和规划方面存在困难。这些挑战促使了更审慎、结构化推理范式的发展，为下一个重大转变奠定了基础。

阶段3：以语言为中心的长推理——系统2思考与规划

虽然MCoT显著提升了MLLMs的推理能力，但对于解决现实世界中多模态任务的复杂性来说仍然不够（Zhang等人, 2024f; Yu等人, 2024c; Yue等人, 2024）。大多数MCoT方法通过短而反应式的推理链进行操作，类似于快速、直观的系统1推理。这些方法在处理熟悉或有界问题时有效，但在抽象、组合性、长程推理和自适应规划方面存在困难（DeepSeek-AI等人, 2025）。为了弥合这一差距，最近的研究转向了受系统2启发的推理（Yao等人, 2023b; Kahneman, 2011），强调更慢、更审慎和方法上结构化的认知过程。在这种观点下，推理不再仅仅被视为一种功能，而是智能行为本身的核心组成部分。沿着推理模态、推理范式和学习方法这三个关键维度扩展MCoT，已成为迈向一类新模型——大型多模态推理模型（LMRMs）的关键轨迹，这类模型能够进行更深入、可迁移且基于认知的推理。

第一，从推理模态的角度来看，仅仅依赖文本表示限制了模型捕捉特定模态知识的能力。最近的研究（Lin等人, 2025a; Gao等人, 2024a; Li等人, 2025b; Zhou等人, 2024b; Rose等人, 2023）引入了跨模态推理链，利用视觉、听觉和语言信号作为联合推理基础，实现更丰富的语义基础和更准确的信息整合（§3.3.1）。

第二，在推理范式方面，研究人员构建更长、更高质量的推理链，并引入通用的、方法学指导的推理策略（Jaech等人, 2024; Yao等人, 2024a）。这些方法使模型能够自主分解复杂任务，并在不同的上下文中应用可迁移的程序。值得注意的是，O1系列（例如GPT-4o（Hurst等人, 2024））在一系列认知要求较高的多模态任务中展现出接近人类水平的性能（§3.3.2）。

最后，从学习方法的角度来看，强化学习增强的多模态推理越来越受到关注。通过整合智能体数据、迭代反馈和长程优化目标，像DeepSeek-R1（DeepSeek-AI等人, 2025）这样的模型提高了它们的规划能力、稳健性和自适应泛化能力。这一系列工作推动了新一代类似R1的模型的出现，这些模型强调可扩展的、基于方法学的多模态推理（§3.3.3）。

这些发展共同反映了从反应式推理范式向审慎推理范式的更广泛转变，使LMRMs更接近在开放和动态环境中实现自适应、系统级的智能。

阶段4：迈向原生大型多模态推理模型（展望）

虽然LMRMs通过扩展思维链在处理复杂任务方面显示出潜力，但其以语言为中心的架构存在关键限制（Kumar等人, 2025; Pfister & Jud, 2025）。第一，它们主要关注视觉和语言模态（例如文本、图像、视频），这限制了它们在现实世界场景中的适用性，在现实世界中，音频、触觉信号、传感器数据流和时间序列等多种数据类型紧密交织。仅靠语言生成的推理往往难以支持多模态的生成性思维、反思和控制。第二，当前的模型在交互式、长程推理和自适应规划方面存在不足。尽管它们在静态环境中能够生成扩展的推理链，但在与动态环境进行实时、迭代交互方面的能力仍有待开发。

为了弥补这些差距，我们展望原生大型多模态推理模型（N - LMRMs）的发展，这可能是机器智能领域的一次范式转变（§4）。与传统的LMRMs不同，传统LMRMs是通过辅助模态处理器对语言模型进行改造，而N - LMRMs将在设计上原生地将多模态理解、生成和智能体推理统一在一个完全端到端的架构中。像VideoPoet（Kondratyuk等人，2024）那样，现实世界的数据类型将被编码在一个统一的表示空间中，而大规模的合成数据将有助于在任何模态交互的环境中全面学习推理和规划。这种演进依赖于两种变革性的能力：1）多模态智能体推理：N - LMRMs将体现智能体的智能，能够与复杂环境进行主动的、目标驱动的交互，例如进行长程规划——分层任务分解和增强记忆的推理，以确保在扩展交互中的连贯性；动态适应——根据环境反馈实时调整策略；具身学习——闭环训练框架使模型能够通过模拟或物理交互进行学习，以实现更好的泛化。2）全模态理解和生成性推理：N - LMRMs将超越特定模态的编码器和解码器，利用统一的表示空间进行流畅的跨模态合成和分析。这包括异构数据融合，用于对各种数据类型进行联合嵌入；上下文多模态生成，用于连贯地创建复合输出；以及模态无关推理，能够为处理新的或任何跨模态数据提供自适应的处理流程。

综上所述，从模块化的感知驱动系统到新兴的原生多模态推理器的演进，勾勒出了一条清晰的轨迹，朝着更统一、自适应、全面的高级人工智能系统发展。在以下各节中，我们将详细分析每个阶段、其代表性模型以及塑造多模态推理未来的新兴研究方向。

3 多模态推理模型的发展路线图

3.1 第一阶段：感知驱动的模块化推理——开发特定任务的推理模块

在多模态推理的早期阶段，由于多模态数据有限、神经网络架构尚不成熟以及学习方法不够完善等限制，模型的开发主要针对特定任务。这些模型通常采用不同的模块来实现多模态表示、对齐、融合和推理。根据模型架构和学习方法，这些模型可概括为模块化推理网络和基于预训练视觉 - 语言模型（VLMs）的模块化推理。

3.1.1 模块化推理网络

最初的方法依赖于通用的CNN和LSTM骨干网络从多模态数据中得出答案。然而，这些方法很快就被基于感知线索进行模块化推理的架构所改进。神经模块网络（NMN）（Andreas等人，2016）动态组装特定任务的模块，以组合视觉和文本特征，取代了静态融合方式。分层协同注意力（HieCoAtt）（Lu等人，2016）引入了模块化的跨模态注意力机制，用于将问题语义与图像区域进行分层对齐。多模态紧凑双线性池化（MCB）（Fukui等人，2016）通过高效的可学习双线性模块优化了特征交互。堆叠注意力网络（SANs）（Yang等人，2016）通过对视觉特征的迭代注意力跳跃实现了推理的模块化。动态记忆网络（DMN）（Xiong等人，2016）集成了记忆模块，用于对顺序输入进行多轮推理。ReasonNet（Ilievski & Feng，2017）将推理分解为实体 - 关系模块，以进行结构化推理。UpDn（Anderson等人，2018）引入了自底向上和自顶向下的注意力机制，为推理（例如VQA - v2）优先选择对象级特征。MAC（Hudson & Manning，2018）采用了一个增强记忆的控制单元，用于迭代组合推理。BAN（Kim等人，2018）通过双线性注意力网络捕获跨模态的高阶交互。异质记忆增强多模态注意力（HeteroMemory）（Fan等人，2019）通过将外观和运动模块与时间融合同步，将模块化扩展到视频领域。MuRel（Cadene等人，2019）将推理建模为对象对之间的关系网络，以进行细粒度的推理。MCAN（Yu等人，2019b）使用具有自注意力和引导注意力的模块化协同注意力机制，进行深度跨模态推理。

这些进展表明，感知驱动的设计——结合注意力机制、记忆组件和组合模块——有助于实现与特定任务需求相匹配的细粒度推理。然而，Transformer（Vaswani等人，2017）架构的出现，以及预训练 - 微调学习方案的应用，推动了多模态表示、对齐和融合的发展。具体来说，基于Transformer的预训练VLMs在数据和模型内部增强了视觉和文本信息的整合，从而实现了感知驱动的推理能力。

3.1.2 基于视觉 - 语言模型的模块化推理

这些VLMs通过大规模的图像 - 文本对进行训练，推动了感知驱动的推理任务的发展，如NLVR2（Suhr等人，2018）、TVQA（Lei等人，2018）、GQA（Hudson & Manning，2019）、OK - VQA（Marino等人，2019）、VCR（Zellers等人，2019）和ScienceQA（Saikh等人，2022）。具体而言，VLMs引入了Transformer，并利用大规模的图像 - 文本数据统一了多模态表示、感知、融合和推理的过程。以下是三种基于预训练VLMs的模块化推理方式：

• 双编码器对比推理：这些模型利用双流架构和对比学习，通过跨模态交互动态对齐和推理视觉与文本特征。例如，ViLBERT（Lu等人，2019）使用带有跨模态注意力的双流Transformer进行动态特征对齐。LXMERT（Tan & Bansal，2019）在双编码器之间添加交互层，以对关系嵌入进行推理。CLIP（Radford等人，2021）利用对比预训练通过对齐的嵌入进行零样本推理。ALBEF（Li等人，2021b）将对比学习与动量蒸馏相结合，对蒸馏后的嵌入进行推理。METER（Dou等人，2022）通过模块化的编码器 - 解码器框架增强双流推理，以实现稳健的对齐（例如在VCR任务中）。SimVLM（Wang等人，2021）使用基于前缀的预训练来对齐视觉和语言，以实现高效推理。VLMo（Bao等人，2022b）引入了模态专家混合框架，用于灵活的跨模态推理。CoCa（Yu等人，2022）集成了对比和生成头，用于多种推理任务（例如NLVR2）。BLIP（Li等人，2022）引入了图像 - 文本Transformer模块Q - former，并通过带有对比目标的视觉 - 语言预训练进行引导对齐推理。
• 单Transformer骨干交互推理：这种范式将视觉和文本输入嵌入到单个Transformer中，通过统一的编码方法实现直接的跨模态推理。VisualBERT（Li等人，2019）、UNITER（Chen等人，2020）、VL - BERT（Su等人，2019）在单个Transformer中融合视觉 - 文本输入，通过联合上下文编码或增强的跨模态预训练进行推理。PixelBERT（Huang等人，2020）采用CNN和Transformer架构处理像素，以进行细粒度推理（例如NLVR2）。UniVL（Luo等人，2020）使用单个Transformer统一视频 - 语言推理，用于处理时间跨模态任务（例如TVQA）。Oscar（Li等人，2020）、VinVL（Zhang等人，2021a）在统一的Transformer中利用对象标签或增强的视觉特征进行推理，提升语义推理能力（例如在VCR、GQA任务中）。ERNIE - ViL（Yu等人，2021）将场景图知识集成到单个Transformer中，通过结构化的视觉 - 语言交互增强组合推理能力。UniT（Hu & Singh，2021）使用共享的自注意力骨干网络简化多模态任务，实现统一推理。PaLI（Chen等人，2022b）通过多语言框架扩展单Transformer推理，用于跨语言推理（例如OK - VQA）。Flamingo（Alayrac等人，2022）采用跨注意力机制，优先处理动态的视觉 - 文本交互。BEiT - 3（Wang等人，2022b）采用掩码数据建模来统一视觉 - 语言学习。OFA（Wang等人，2022a）、BLIP - 2（Li等人，2023d）引入统一的多模态框架或查询Transformer，以更高的效率进行跨模态推理（例如VQA - v2）。Kosmos - 1（Huang等人，2023b）、Kosmos - 2（Peng等人，2023）实现了交错输入处理或定位能力，用于灵活的多模态理解和精确的对象定位。
• 基于多模态大语言模型的隐含推理：这种方法将视觉输入投影到大型语言模型的文本空间中，利用大型语言模型（Li等人，2023e）的上下文推理能力来提高多模态推理的性能。其架构包含预训练的视觉编码器和大型语言模型，即Vision - Encoder - LLM。CLIP - Cap（Mokady等人，2021）将CLIP视觉特征投影到LLM中，用于推理和图像字幕任务。LLaVA（Liu等人，2023a）通过调整ViT - LLM的集成，实现对话式推理，以用于交互式任务或扩展到复杂的VQA任务。MiniGPT - 4（Zhu等人，2023）、InstructBLIP（Dai等人，2023）通过投影层或指令调整将ViT与冻结的LLM对齐，简化视觉 - 文本推理。Qwen - VL（Bai等人，2023）结合了空间感知的ViT，增强了对空间复杂任务的基础推理能力。mPLUG - Owl（Ye等人，2023）、LMEye（Li等人，2024l）和Otter（Li等人，2023a）将模块化视觉编码器与LLM集成，用于遵循指令和上下文学习的多模态推理。

虽然这三种模型的架构创新显著推动了多模态推理任务的发展，但它们对预定义特征对齐或上下文编码的依赖，往往限制了其处理需要迭代或组合推理的复杂多步推理场景的能力。这些限制凸显了在大规模模型中（如LLMs的发展），多模态思维链（MCoT）推理（§3.2）的必要性，MCoT能够动态分解任务、整合中间推理步骤，并自适应地对齐感知和推理，从而在各种多模态挑战中实现更稳健和可泛化的性能。

3.2 第二阶段：以语言为中心的短推理——系统1推理

随着大规模多模态预训练的发展，MLLMs开始展现出新兴的推理能力。然而，这种推理往往较为肤浅，主要依赖于隐含的相关性，而非明确的逻辑过程。MCoT作为一种简单而有效的方法出现，以缓解这一限制。通过纳入中间推理步骤，MCoT改善了跨模态对齐、知识整合和上下文基础，且无需大量的监督或显著的架构修改。在本阶段，我们将现有方法分为三种范式：基于提示的MCoT、具有预定义模式的结构化推理，以及使用轻量级外部模块的工具增强推理。

图4：多模态思维链中结构化推理的分类和代表性方法

3.2.1 基于提示的MCoT

基于提示的多模态思维链（MCoT）方法将文本CoT范式扩展到多模态场景中，能够在多模态之间进行逐步推理，具有很强的可解释性，且几乎不需要额外的训练。在视觉推理中，IPVR（Chen等人，2023c）提出了一种结构化的“观察 - 思考 - 确认”提示框架，引导LLMs进行视觉定位和推理验证。VIC（Zheng等人，2024c）在视觉输入之前提示文本推理链，以减少幻觉并提高准确性。

对于视频理解，VoT（Fei等人，2024）利用时空场景图，从低级感知到高级解释逐步提示推理。VideoAgent（Wang等人，2024h）是一个由LLM协调的系统，它通过最少的帧使用，从长视频中迭代提示关键信息。LET（Himakunthala等人，2023）在VIP数据集上采用逐帧提示策略，引导视频填充和预测的时间推理。

在特定领域的应用中，PKRD - CoT（Luo等人，2024）引入了一种零样本提示框架，在感知、知识、推理和决策制定的过程中，构建自动驾驶推理的结构。LPE（Xie等人，2025a）在语音内容和情感线索上使用基于提示的推理，以生成富有同理心的回应。EMER（Lian等人，2023）将提示应用于多模态情感识别，整合单模态线索并产生可解释的预测。

任务导向的推理也从基于提示的MCoT中受益。CoTDet（Tang等人，2023）使用多层次提示来提取用于目标检测的可供性知识。AntGPT（Zhao等人，2023）提示LLMs从基于视频的动作序列中推断人类目标和时间动态。CPSeg（Li，2024）制定思维链提示，以对齐文本和像素级语义，增强分割效果。

3.2.2 结构化推理

与基于提示的MCoT方法不同，结构化推理不是通过手工制作的示例或零样本提示方法诱导推理行为，而是专注于通过监督学习来学习推理模式。通过将明确的程序结构集成到模型中，这些方法将松散引导的推理转变为标准化的、分阶段的过程，提高了在复杂多模态任务中的可扩展性、可靠性和效率。我们将结构化推理分为三种代表性类型：（i）理由构建，学习生成原子推理步骤作为可解释的框架；（ii）定义推理程序，将结构化纹理推理方案应用于多模态设置；（iii）特定模态结构推理，进一步纳入模态感知约束和设计，以更好地与视觉、听觉或具身输入的特征对齐。

• 理由构建：多模态环境中结构化推理的基础始于有效的理由学习方法。Multimodal - CoT（Zhang等人，2023g）提出了一个两阶段的Multimodal - CoT框架，将理由生成与答案预测解耦，以减少幻觉。T - sciq（Wang等人，2024e）利用教师LLMs生成具有不同复杂性的理由，表明理由质量是推理准确性的关键。在自动驾驶领域，G - CoT（Ma等人，2024）设计了Dolphins，明确地将理由与视觉和历史驾驶信号联系起来，进行更有根据的推理。MC - CoT（Tan等人，2024a）使用自一致性策略从多个候选理由中选择最准确的理由，提高较小模型的性能。CLoT（Zhong等人，2024a）通过“思维跳跃”促进非线性、探索性的理由构建，以支持创造性推理。
• 定义推理程序：在增强文本推理过程的可解释性领域，许多研究提出了结构化的推理阶段。例如，Cantor（Gao等人，2024c）区分了感知和决策阶段。在感知阶段，从图像或文本描述中提取对象、颜色和形状等低级属性，随后的决策阶段整合这些特征以解决问题。TextCoT（Luan等人，2024）采用了一个三阶段过程。图像概述阶段生成全局描述，粗略定位阶段利用LMMs的定位能力确定答案区域，细粒度观察阶段结合全局和局部细节以获得准确答案。同样，Grounding - Prompter（Chen等人，2023a）进行全局理解、噪声评估、分区理解和预测。它逐渐融合全局和局部语义，抵抗噪声，并提高对时间边界的感知。Audio - CoT（Ma等人，2025d）利用三种思维链推理范式。Manual - CoT依赖手工制作的示例进行推理指导，Zero - Shot - CoT通过简单提示实现零样本推理，Desp - CoT通过生成音频描述促进推理。VIC（Zheng等人，2024c）在整合视觉输入形成最终理由之前，将任务分解为基于文本的子步骤。Visual Sketchpad（Hu等人，2024b）在草图绘制过程中将理由组织为思考、行动和观察阶段。DetCoT（Wu等人，2024c）将VQA推理形式化为子任务的组合并进行回顾。BDoG（Zheng等人，2024b）利用一个专门的辩论和总结管道以及独特的智能体。CoTDet（Tang等人，2023）通过类似人类的列举、分析和总结过程实现目标检测。CoCoT（Zhang等人，2024a）系统地比较输入的相似性和差异。SegPref（Wang等人，2024j）通过全局理解、发声对象过滤和噪声去除，在视觉空间中准确地定位发声对象。EMMAX（Sun等人，2024b）将基于基础的规划方法与预测运动技术相结合。
• 多模态特定结构推理：最近的研究引入了针对多模态输入独特挑战的特定模态推理结构，特别是在视觉-语言任务中。一系列突出的工作集中在基于区域的定位上，其中空间定位用于引导结构化推理。例如，CoS（Liu等人，2024g）和TextCoT（Luan等人，2024）采用两阶段管道，首先根据输入问题识别感兴趣区域，然后进行局部检查，以实现多粒度推理而不会损失分辨率。DCoT（Jia等人，2024）通过引入双引导机制扩展了这一范式，该机制结合了边界框定位和语义相似示例的检索，共同增强了细粒度和上下文感知推理。除了空间定位，CoT-PT（Ge等人，2023）通过提示调整整合视觉和文本嵌入，并通过从粗到细的抽象逐步细化视觉概念表示。

另一类方法侧重于文本引导的语义丰富。Shikra（Chen等人，2023b）和TextCoT（Luan等人，2024）利用图像字幕作为高级语义线索来引导空间注意力和对象定位。这种策略减少了对外部检测模块的依赖，并促进了更可解释的指称推理。受经典CoT框架的启发，DDCoT（Zheng等人，2023）和AVQA-CoT（Li等人，2024e）将复杂的视觉或视听查询分解为顺序子问题，实现组合推理并改进跨模态的多跳推理。

最后，E-CoT（Zawalski等人，2024）通过交错任务重述、规划和低级动作执行，将结构化推理扩展到具身场景。这突出了在视觉-语言-动作模型中，跨越语义和感觉运动水平的推理链的必要性。

3.2.3 外部增强推理

外部增强推理引入优势算法、辅助工具或专家模块，以弥补模型固有推理能力的局限性。这些组件在推理时集成或在训练期间结合使用，实现更灵活、可扩展和任务特定的推理工作流程。通过将核心推理步骤与基础模型解耦，此类方法支持长程规划、精确的定位以及对动态或特定领域信息的访问。我们将外部增强方法分为四类：（i）搜索算法增强的MCoT，通过各种搜索算法在推理空间中导航；（ii）基于工具的增强，利用外部语言工具或系统指导推理执行；（iii）检索增强推理，将来自外部源的相关多模态知识纳入推理路径；（iv）多模态增强，整合专门的多模态模块以支持感知驱动的推理。

• 搜索算法增强的MCoT：搜索策略驱动的MCoT方法使模型能够在推理过程中动态导航和优化推理轨迹。例如，MM-ToT（Gomez，2023）利用GPT-4和Stable Diffusion，采用深度优先搜索（DFS）和广度优先搜索（BFS）算法，根据0.0 - 1.0的度量标准确定最优的多模态输出。HoT（Yao等人，2023a）从多模态输入创建相互关联的思维，并将它们打包成单个超边。与HoT不同，聚合思维图（AGoT）（Yang等人，2024c）构建一个推理聚合图，在每个步骤中整合不同的推理元素，随后纳入视觉数据。蓝图图上辩论（BDoG）（Zheng等人，2024b）采用了独特的方法，摒弃了搜索算法，而是利用三个智能体——一个正方辩论者、一个反方辩论者和一个主持人。这些智能体进行迭代辩论以解决多模态问题，最终由主持人合成最终答案，从而隐含地构建一个探索和聚合广泛思维的思维图。总体而言，与依赖线性、示例驱动推理的基于提示的方法相比，以搜索策略为导向的MCoT变体使模型能够探索多种推理路径，从而显著提高适应性和问题解决的深度。
• 文本工具：为了增强多模态思维链（MCoT）框架的推理能力，一些工作纳入了外部文本增强工具，这些工具通过语言指导、构建或优化整个推理过程。L3GO（Yamada等人，2024）使用带有思维链提示的GPT-4生成明确的文本推理步骤，在Blender环境中借助ControlNet进行视觉定位，指导3D网格构建。HYDRA（Ke等人，2024）和Det-CoT（Wu等人，2024c）不仅将大语言模型用作规划器，还用作动态指令生成器、错误诊断器和推理控制器。这些模型与视觉基础模型（例如BLIP2、LLaVA）和强化学习智能体交互，同时使用文本提示和反馈迭代地改进视觉理解和决策。这两个系统都集成了一个状态记忆库来维护对话历史或先前指令，通过文本调制实现增量式的CoT推理。图像链（Meng等人，2023）引入了SyMLLM，它从语言描述生成中间图像，将复杂问题转化为视觉推理任务，同时仍以基于语言的控制为基础。同样，AnyMAL（Moon等人，2024）将多种模态统一到文本空间中进行跨模态推理，而SE-CMRN（Zhang等人，2021b）利用图卷积网络（GCNs）的句法线索来提高视觉常识推理的性能。
• RAG：有几种方法通过检索机制增强多模态推理，例如解决在线问题（Chen等人，2024k）。RAGAR（Khaliq等人，2024）提出了CoRAG和ToRAG，通过检索多模态证据来支持政治事实核查。行动链（Pan等人，2024）通过可配置的推理链从异构源检索信息。KAM-CoT（Mondal等人，2024）将知识图谱作为外部知识源纳入，以增强多模态推理。AR-MCTS（Dong等人，2024a）将动态的逐步检索与蒙特卡罗树搜索相结合，使MLLMs能够在每个推理步骤访问相关知识并自动生成高质量的推理。

名称	模态	任务	增强类型	外部来源	亮点
MM-ToT（2023）	T, I	图像生成	搜索算法	DFS, BFS	应用DFS和BFS选择最优输出
HoT（2023a）	T, I	VQA	搜索算法	图上的多跳随机游走	从多模态数据在超边中生成链接的思维
AGoT（2024c）	T, I	文本 - 图像检索, VQA	搜索算法	提示聚合和提示流操作	构建图以聚合多方面推理与视觉信息
BDoG（2024b）	T, I	VQA	搜索算法	图凝聚：实体更新、关系更新、图剪枝	有效的三智能体辩论形成多模态查询的思维图
L3GO（2024）	T, I	3D对象生成与合成	工具	Blender, ControlNet	在模拟环境中通过LLM推理进行迭代的基于部件的3D构建
HYDRA（2024）	T, I	知识问答, 视觉定位	工具	RL智能体控制器, 视觉基础模型	RL智能体通过动态指令选择控制多阶段视觉推理
Det-CoT（2024c）	T, I	目标检测	工具	视觉处理提示	视觉提示引导MLLM注意力进行结构化检测推理
图像链（2023）	T, I	几何、国际象棋和常识推理	工具	图像链提示	在推理过程中生成中间图像用于视觉模式识别
AnyMAL（2024）	T, I, A, V	跨模态推理, 多模态问答	工具	预训练对齐模块	高效整合多种模态；通过LLaMA - 2后端进行强大的推理
SE-CMRN（2021b）	T, I	视觉常识推理	工具	句法图卷积网络	在双分支网络中通过句法GCN增强语言引导的视觉推理
RAGAR（2024）	T, I	政治事实核查	RAG	DuckDuckGo & SerpAPI	将MLLMs与检索增强推理相结合，使用文本和图像证据验证事实
行动链（2024）	T, I	信息检索	RAG	Google Search, ChromaDB	将问题分解为具有可配置检索行动的推理链，解决知识源之间的冲突
KAM-CoT（2024）	T, I, KG	教育科学推理	RAG	ConceptNet知识图谱	通过从图谱中检索结构化知识并通过两阶段训练进行整合来增强推理
AR-MCTS（2024a）	T, I	多步推理	RAG	Contriever, CLIP双流	结合逐步检索与蒙特卡罗树搜索进行验证推理
MR-MKG（2024）	T, I	一般多模态推理	RAG	RGAT	通过整合多模态知识图谱中的信息增强多模态推理
Reverse-HP（2022）	T, I	疾病相关推理	RAG	反向超平面投影	利用KG嵌入增强特定疾病的多模态数据推理
MarT（2022）	T, I	类比推理	RAG	结构引导的关系转移	使用结构映射理论和基于关系的转移进行基于KG的类比推理
MCoT-Memory（2025a）	T, I	VQA	多模态信息增强	LLAVA	用于有效长程任务规划的记忆框架和场景图构建
MGCoT（2023c）	T, I	VQA	多模态嵌入增强	ViT-large编码器	精确的视觉特征提取有助于多模态推理
CCoT（2024）	T, I	VQA	多模态感知增强	场景图	利用生成的场景图作为中间推理步骤
CVR-LLM（2024n）	T, I	VQA	多模态嵌入增强	BLIP2flant5 & BLIP2多嵌入	通过迭代自精炼和有效的文本 - 多模态因素整合，生成精确的上下文感知图像描述
CAT（2023a）	T, I	图像字幕	多模态感知增强	SAM	将有前景的预训练图像字幕生成器、SAM和指令调整的大语言模型集成

3.3 第三阶段：以语言为中心的长推理——系统2思考与规划

虽然结构化推理引入了预定义模式来引导MLLMs进行更系统的推理，但它仍然受到推理深度浅和适应性有限的限制。为了处理更复杂的多模态任务，最近的工作旨在开发系统2风格的推理（Kahneman, 2011）。与快速和反应性策略不同，这种形式的推理是深思熟虑的、组合性的，并且由明确的规划引导。通过扩展推理链，将其基于多模态输入，并使用监督或强化信号进行训练，这些模型开始展现出长程推理和自适应问题分解的能力。

3.3.1 跨模态推理

跨模态推理指的是整合和跨多种模态（如文本、图像、视频）进行推理的能力。最近跨模态推理的进展强调了通过模型内在能力或外部工具和算法，在文本输入之外增强多模态信息的重要性。这些方法旨在通过动态整合来自不同模态的互补信息，提高推理准确性和稳健性。

• 外部工具：除了在§3.2.3中描述的用于多模态理解的外部工具使用，最近的方法越来越多地探索将工具集成作为多模态推理本身的一种手段。VisProg（Gupta & Kembhavi, 2023）和ProViQ（Choudhury等人, 2024）利用程序生成和过程执行来实现跨模态推理，动态生成可执行代码或逻辑路径，以解决复杂任务，如视频问答、多步视觉推理和几何问题求解。同时，AssistGPT（Gao等人, 2023）、MM - ReAct（Yang等人, 2023）和Multi - Modal - Thought（Lin等人, 2025a）等方法采用模块化集成框架（如PEIL和视觉专家提示），根据推理进展协调工具使用。这些系统通过在任务执行期间动态调用不同工具，实现了可解释和自适应的推理。VisualReasoner（Cheng等人, 2024a）进一步引入了数据合成策略，生成多步推理轨迹，然后用于训练适用于各种视觉 - 语言骨干模型的即插即用视觉推理模块。总体而言，这些努力通过结合程序归纳、动态工具编排和数据驱动的推理监督，扩展了多模态推理的领域。
• 外部算法：FAST（Sun等人, 2024a）和ICoT（Gao等人, 2024a）都利用了类似于人类思维的认知过程，FAST采用系统切换适配器在快速和慢速思维模式之间动态切换，而ICoT利用注意力驱动选择（ADS）交错视觉和文本推理步骤。同时，Image - of - Thought（Zhou等人, 2024b）和CoTDiffusion（Ni等人, 2024a）专注于生成视觉推理依据，Image - of - Thought逐步提取视觉信息，CoTDiffusion创建视觉子目标计划，将算法增强扩展到机器人领域。
• 模型内在能力：这些方法依赖于LMM固有的生成或推断多模态信息的能力，而无需外部工具。T - SciQ（Wang等人, 2024e）、Visual - CoT（Rose等人, 2023）和VoCoT（Li等人, 2024m）展示了在精心设计的CoT数据集（如VoCoT - Instruct80K）上对LMM进行微调，如何能够在图表、文档和几何问题中实现单步多模态推理。MVoT（Li等人, 2025b）是早期的一项尝试，其中一个自包含的架构迭代地优化视觉 - 文本表示，用于具身推理任务。

要点总结：跨模态推理：跨模态推理方法通过跨模态集成视觉、听觉和程序线索来增强多模态推理。代表性策略包括利用外部工具、通过算法控制交错特定模态步骤，以及模型内在的多模态表示融合，在开放式任务中实现更有根据、可解释和稳健的推理。

3.3.2 多模态-O1

随着OpenAI o1的兴起，它引发了人们对大型推理模型的广泛兴趣，像Marco - o1（Zhao等人, 2024c）和llamaberry（Zhang等人, 2024b）等利用CoT微调的开源复现模型开始出现。CoT微调通过训练方法激活了模型固有的慢思考能力。与传统的CoT方法相比，它增强了模型在开放式问题上的推理能力，引入了自我反思和错误纠正机制。LLaVA - CoT（Xu等人, 2024b）、LlamaV - o1（Thawakar等人, 2025）、RedStar（Xu等人, 2025a）和Mulberry（Yao等人, 2024a）将推理范式扩展到多模态领域。与文本领域中“思考 -> 回答”的两阶段推理范式不同，这些工作将推理过程扩展为四个阶段，包括总结（理由）、字幕、思考和回答。

在CoT微调的基础上，测试时使用各种推理策略进行扩展也是增强推理能力的重要方法。Best - of - N采样为给定提示生成多个响应，扩大搜索空间以找到更好的解决方案。另一方面，束搜索（Beam Search）不是一次性生成完整响应，而是在每个步骤使用评分选择最有希望的中间输出。LLaVA - CoT（Xu等人, 2024b）和LlamaV - o1（Thawakar等人, 2025）应用这种方法来增强推理能力。蒙特卡罗树搜索（MCTS）允许并行探索多个解决方案路径，与束搜索相比，确保了更精细的搜索过程。Marco - o1（Zhao等人, 2024c）、llamaberry（Zhang等人, 2024b）和Mulberry（Yao等人, 2024a）已成功将这种方法集成到推理模型的生成过程中。

要点总结：多模态-O1：多模态 - O1模型通过多阶段生成结构、长程推理和结构化监督深化了CoT工作流程，扩展了系统1推理。通过在富含理由的数据上进行微调，并由束搜索或MCTS等规划算法支持，这些模型实现了更连贯、可解释和可扩展的多模态推理。

3.3.3 多模态-R1

近年来，强化学习中的近端策略优化（DPO）被广泛用于增强大型多模态模型的推理能力。RLHF - V（Yu等人, 2024a）、LLaVA - Reasoner（Zhang等人, 2024e）和Insight - V（Dong等人, 2024b）通过利用大量自我构建的偏好数据并直接应用DPO算法进行训练，在一定程度上提高了模型的推理能力。MMPR（Wang等人, 2024g）对DPO算法进行了修改，在DPO偏好损失的基础上增加了从二元分类器获得的质量损失和传统监督微调（SFT）的生成损失，有效地增强了模型的CoT能力。

随着Deepseek - R1的成功，广义近端策略优化（GRPO）算法开始在多模态大型模型中得到广泛应用。包括MM - EUREKA（Meng等人, 2025）、Vt - R1（Zhou等人, 2025）、LMM - R1（Yingzhe等人, 2025）、R1 - V（Chen等人, 2025b）在内的工作，通过采用与文本领域类似的方法，将GRPO算法应用于数学几何问题，成功展示了反思现象。VLM - R1（Shen等人, 2025）、Visual - RFT（Liu等人, 2025f）和Seg - Zero（Yuqi等人, 2025）利用GRPO算法增强多模态大语言模型的视觉能力，如定位、检测和分类。这种强化学习方法成功地提高了模型的视觉能力。此外，包括Video - R1（Feng等人, 2025b）和VideoChat - R1（Li等人, 2025g）在内的工作将GRPO算法引入视频模态，而R1 - Omni（Zhao等人, 2025c）进一步将其扩展到音频模态。尽管如此，现有工作通常局限于特定任务，目前的多模态大型模型还无法将从数学等任务中学习到的长思维链能力推广到模型的一般能力中，就像Deepseek - R1那样。

要点总结：多模态-R1：多模态 - R1方法利用强化学习，特别是DPO和GRPO，增强了模型探索和优化复杂推理路径的能力。这些方法通过使模型输出与偏好数据或多模态反馈对齐，提高了推理深度、连贯性和领域适应性，为更通用的长程系统2推理奠定了基础。

4 迈向原生多模态推理模型

LMRMs在通过长思维链处理复杂任务方面展现出了潜力。然而，它们以语言为中心的架构限制了其在现实世界场景中的有效性。具体来说，它们对视觉和语言模态的依赖限制了其处理和推理交织的各种数据类型的能力，而它们在与动态环境进行实时、迭代交互方面的表现仍有待提升。这些限制凸显了对一类新模型的需求，这类模型能够进行更广泛的多模态集成和更先进的交互式推理。

在本节中，我们首先分析了最先进的LMRMs在旨在评估全模态理解和智能体能力的基准测试中的性能，突出了它们在现实世界适用性方面的局限性（§4.1）。随后，我们引入了原生大型多模态推理模型（NLMRMs）的概念，它代表了机器智能领域的一种范式转变，具有两种基本能力：多模态智能体推理和全模态理解与生成性推理（§4.2）。最后，我们将讨论构建N - LMRMs面临的开放性挑战，并概述有前景的研究方向以克服这些障碍（§4.3）。

4.1 实验结果

尽管LMRMs在生成全面的思维过程和解决诸如MMMU（Yue等人, 2024）和MathVista（Lu等人, 2024）等复杂问题方面取得了显著进展，但在以下几个方面，自主解决这些问题与现实世界的应用仍有很大差距：1）评估范围应涵盖多种模态，包括视觉、音频和文本。2）评估能力应涉及与外部环境的交互，这需要长程推理和自适应规划。在这里，我们在表7中总结了收集到的全模态和智能体基准测试，并对LMRMs在这些基准测试上的性能进行了分析。

• 全模态基准测试：最近的研究引入了一系列全模态基准测试，旨在评估LMRMs在各种数据类型（如图像、音频、文本和视频）上进行统一理解和推理的能力。例如，OmniMMI（Wang等人, 2025g）旨在全面评估开放世界环境中视频流上下文的交互能力。实验结果显示，即使是商业模型，如Gemini - 1.5 - Pro和GPT - 4o，平均准确率也低于20%。当任务需要统一的模态理解（OmniBench（Li等人, 2024j）、TaskAnything和JudgeAnything（Pu等人, 2025）、MixEvalL - X（Ni等人, 2024b））时，开源和闭源模型的性能都显著低于单模态条件下的性能。具体来说，在视听问答（AVQA）任务中，如WorldSense（Hong等人, 2025），Claude 3.5 Sonnet的平均准确率仅为35%，而表现最好的开源模型准确率仅为25%。在更具挑战性的多模态推理任务中，如BabelBench（Wang等人, 2024i）和OmnixR（Chen等人, 2024e），随着模态数量的增加，所有模型的性能都急剧下降。这表明与文本输入相比，模型在为图像、视频和音频输入生成推理路径方面存在困难。这些结果共同表明，当前的LMRMs还无法有效地处理全模态输入。
• 智能体基准测试：各种各样的任务凸显了多模态智能体评估设置的复杂性和广度。这些包括AgentBench的多环境任务（Liu等人, 2023b, 2024d）、WorFBench的复杂工作流规划场景（Qiao等人, 2024）、OSWorld和AndroidWorld的完整操作系统交互（Xie等人, 2024a; Rawles等人, 2024）、EmbodiedBench基于视觉的导航和操作挑战（Yang等人, 2025b）、VisualWebArena的视觉基础网络任务（Koh等人, 2024）以及GAIA的开放式、工具增强查询（Hu等人, 2023）。这些基准测试涵盖了广泛的任务类型和模态（如文本和视觉），包括现实环境和工具增强环境。

关于LMRMs在智能体基准测试上的性能，这些模型总体上引领了当前的性能水平，并取得了显著进展（Team, 2024, 2025a; Yao等人, 2024b）。然而，即使是最先进的模型也始终无法达到人类水平的可靠性，并且在处理复杂、开放式任务时存在困难。跨基准测试的评估反复揭示了常见的瓶颈：模型常常在现实世界定位（Gou等人, 2025; Zheng等人, 2024a）、连贯的长程推理和规划（Qian等人, 2025）、与外部工具的无缝集成（Wang等人，2025d）以及在不同模态和领域中保持稳健性（Chu等人，2025）方面失败。例如，在BrowseComp基准测试（Wei等人，2025a）中，GPT-4o的准确率仅为0.6%，使用浏览工具后提升至1.9%，这凸显了其工具交互规划能力较弱。OpenAI的推理模型o1达到了9.9%的准确率，但仍有很大的提升空间。值得注意的是，OpenAI Deep Research通过针对网络搜索的针对性调整，通过自主迭代工具调用和推理完成了51.5%的任务。实验结果表明，当前的大型推理模型在长程推理和自适应规划方面仍然存在不足，这可能需要特定的调整和架构增强，才能发展成为真正的原生智能体系统。

• o3和o4-mini的初步研究：最近，OpenAI发布了o3和o4-mini，它们为ChatGPT工具提供了完整的智能体访问权限，并使模型能够“用图像思考”。视觉内容的集成直接增强了思维过程中的多模态推理能力。例如，在图6中，o3在8分13秒的思考过程中展示了清晰的任务分解。它通过反复试验有效地确定了裁剪每个子图的最佳方法，最终得出正确答案。除了视觉推理，我们还评估了o3在文件处理、谜题解决、位置识别和多媒体内容创建方面的能力。如图7和图8所示，o3通过捕捉和利用图像中的微妙线索，在复杂的多模态问题解决中表现出强大的性能。然而，也发现了一些挑战：1）语言知识可能会干扰视觉输入。如图8中的手指计数案例，o3错误地将图像识别为标准的举起手的表情符号，显示有四个手指加一个拇指，尽管图像明显显示有六个手指。2）OpenAI o3在输入文件处理和多媒体内容生成方面存在困难。由于工具限制和编码环境中无法访问互联网，文件处理和多媒体创建往往会导致不准确的结果。在图8的简历信息收集案例中，从简历PDF中解析出的电话号码可能不正确，并且o3通过重复使用相似内容虚构了候选人的项目经验。此外，在图7的多媒体创建案例中，生成的帧未能遵循“红熊猫”的指令，并且o3无法支持交错的文本-图像生成。3）OpenAI o3在思考过程中可能会编造推理。它偶尔会为可能正确的答案构建错误的推理依据（例如图7中的谜题解决案例）。这个问题急需解决，因为它可能导致模型在训练后试图欺骗用户。事实上，这表明该模型尚未掌握解决问题的相关思维逻辑。

图6：OpenAI o3的长多模态思维链案例研究，经过8分13秒的推理得出正确答案。问题来自中国公务员考试。

4.2 N-LMRMs的能力

基于上述实验结果，我们引入了原生大型多模态推理模型（N-LMRMs）的概念。N-LMRMs本质上旨在跨任何模态集成多模态理解、生成和智能体推理，其能力将超越o4-mini的感知和推理范围。这一进步将基于两个在很大程度上并行探索的变革性能力：多模态智能体推理，通过分层任务分解、实时战略适应和具身学习实现主动的、目标驱动的交互；以及全模态理解和生成性推理，通过统一表示支持无缝的跨模态合成和分析，促进异构数据融合和上下文多模态交互。表8总结了与智能体和全模态模型相关的现有关键工作。这些模型仅探索了N-LMRMs的部分能力，并未将上述两种能力结合起来构建更强大的大型多模态推理模型。

• 多模态智能体推理：多模态智能体推理的核心能力之一是动态适应，它可以根据环境反馈实时调整策略。行业内的一些最新产品初步展示了这种能力。由于模型上下文协议（MCP）（Anthropic，2025）和智能体对智能体协议（A2A）（Surapaneni等人，2025）促进了各种工具的无缝集成，并实现了跨各种外部环境的动态交互，这些协议凸显了多模态智能体推理的重要性，使智能体能够根据环境反馈实时调整策略，从而提高它们在动态和多方面现实世界应用中的有效性。例如，Operater将GPT-4o的视觉能力与通过强化学习实现的先进推理能力相结合，使其能够通过图形用户界面（GUI）与操作系统和浏览器进行实时交互，在任务执行过程中不断改进其浏览和数据操作能力。同样，Claude Computer Use允许模型操作和导航桌面环境，通过反复试验学习最佳交互策略。

此外，Search-o1（Li等人，2025e）在推理过程中利用外部知识检索来填补理解上的空白。R1-Searcher（Song等人，2025b）和DeepResearcher（Zheng等人，2025e）通过强化学习增强了自主使用搜索引擎收集信息的能力。通过将这种自主知识检索纳入推理过程，这些系统能够在更深入理解的基础上采取行动，并根据不断变化的任务调整响应。Gemini 2.0具有处理和生成多模态内容的能力。通过与谷歌的各种工具深度集成，并结合其先进的推理能力，它在处理多步问题时能够有效地分解任务并逐步获取所需信息。虽然当前的模型已经展示了这种功能的初始版本，但它们在跨不同模态进行持续的交互式推理方面仍存在不足。

多模态智能体推理的另一个方面是LMRMs的具身学习，以处理外部环境。具身学习的例子包括能够与数字和物理环境进行交互的系统。例如，Magma（Yang等人，2025a）通过与现实世界数据交互进行学习，提高了其时空推理能力，以便在虚拟和物理环境中有效地导航和操作对象。同样，OpenVLA（Kim等人，2024）将视觉编码器与语言模型相结合，使系统能够从现实世界的机器人演示中学习。这种具身方法使模型能够获得视觉和特定任务的推理技能，增强了其执行需要多模态理解和适应的复杂现实世界动作的能力。总之，最近的RL-scale方法将极大地激发大规模模型的智能体行为，推动其向世界模型发展。

• 全模态理解和生成性推理：多模态智能体的行为与底层大型多模态模型的深度推理能力密切相关，特别是在感知范围、理解准确性和推理深度方面。因此，开发一个适用于现实世界应用的全面全模态模型并增强其深度推理能力至关重要。早期的工作，如AnyGPT（Zhan等人，2024），利用离散表示对各种模态进行统一处理，实现了跨模态的统一理解和生成。最近，Baichuan-Omni-1.5（Li等人，2025h）展示了在各种模态的协作实时理解方面令人印象深刻的能力。Qwen2.5-Omni（Xu等人，2025b）使用一种名为时间对齐多模态旋转位置嵌入（Time-aligned Multimodal RoPE）的新位置嵌入，将视频输入的时间戳与音频同步。更多最新的开源工作，如M2-omni（Guo等人，2025）和MiniCPM-o（Yu等人，2024b），正在缩小与GPT-4o等闭源模型的性能差距。

受现实世界特定需求的驱动，较小尺寸的全模态模型越来越受到关注。Megrez-3B-Omni（Li等人，2025a）是一款在设备上运行的多模态理解大语言模型，在场景理解和OCR等任务中表现出色。Mini-Omni2（Xie & Wu，2024）是一款视觉音频助手，能够对视觉和音频查询提供实时、端到端的语音响应。R1-Omni（Zhao等人，2025c）专注于从视觉和听觉信息中进行情感识别。

尽管取得了这些进展，但当前多模态人工智能的研究主要集中在增强统一多模态表示的理解和生成上。有效集成和探究跨模态交互的推理能力的发展仍然严重不足。弥合这一差距对于实现原生多模态推理模型至关重要，这些模型本质上旨在以类似人类的复杂性处理、分析和合成相互关联的模态。

4.3 技术展望

原生大型多模态推理模型（N-LMRMs）的技术展望是原生地统一对各种数据类型的理解、生成和推理，从语言和视觉到音频、触觉、传感器读数、时间序列和结构化数据，使我们更接近能够以统一和连贯的方式进行感知、理解、交流和行动的系统。然而，构建这样的N-LMRMs面临着重大挑战。这些模型在架构设计上必须能够在单个系统中处理异构模态，通过长多模态推理链灵活地使用和组合各种工具，并支持从现实世界交互中持续学习。本节概述了构建N-LMRMs的关键挑战，并提出了几种可能的解决途径。

• 统一表示和跨模态融合：一个基本挑战是创建一个单一的模型架构，能够以连贯的方式处理和生成不同的模态。传统方法通常为每个模态使用单独的编码器（Lyu等人，2023；Li等人，2024l）。相比之下，原生全模态模型寻求更统一的设计，允许模态之间的无缝交互。一种可能的解决方案是将所有输入和输出统一为一种通用格式，并以统一的方式处理任何模态。这种方法需要精心设计，以防止负面干扰，即一种模态可能主导或损害其他模态的表示（Leng等人，2024；Chen等人，2024g）。因此，一种新兴的解决方案是专家混合（MoE）架构，其中专门针对某些模态的专家仅在相关输入时被激活，而核心语言模型作为语言智能的骨干（Chen等人，2024i；Li等人，2025j；Team，2025a；Shukor等人，2025）。
• 交错多模态长思维链：在统一表示的基础上，N-LMRMs可以将传统的长内部思维链扩展为跨多个模态的交错推理过程。这为测试时的计算扩展提供了一个新的维度，能够无缝融合不同的模态（Wang等人，2025a）。OpenAI最近发布的o3和o4-mini在这个方向上迈出了开创性的一步，即在其思维链中进行图像推理（OpenAI，2025b），通过自动使用能够缩放、裁剪、翻转或增强图像的工具。重要的是，这些能力是原生的，无需依赖单独的专门模型（Wu & Xie，2023；Hu等人，2024b；Feng等人，2025a；Qian等人，2025；Wang等人，2025d）。受强化学习在软件工程（OpenAI，2025）、IMO级数学（DeepSeek-AI等人，2025）、创意写作（Zhao等人，2024c）和GUI操作（Qin等人，2025）等领域有前景的泛化能力的驱动，将强化学习扩展到更多模态、更长的工具增强推理链和更广泛的推理任务，可能是下一代N-LMRMs的发展方向，能够模拟跨模态推理并提升机器智能。
• 从世界经验中学习和进化：在动态进化的智能系统中，基于LMRMs的“世界模型2”的核心价值不仅在于其在复杂环境（如自动驾驶（Wang等人，2024m））中的实时建模和推理能力，还在于其通过与环境的持续交互进行终身学习（Thrun & Mitchell，1995）的进化机制。当MCP和A2A创建一个高密度的工具和智能体集群网络时，系统可以通过与环境、工具和其他智能体的多维互动，将每次交互转化为结构化的经验。这包括从实时数据流中的模式识别到工具操作链中的因果推理，从通信网络中的协作反馈到异常场景中的自主适应。

这种持续学习范式使LMRMs能够克服静态知识库的局限性。通过迭代积累世界经验，它动态地更新其认知架构和决策策略。特别是在开放环境中，自主学习机制驱动模型积极探索工具组合的潜力。在解决新问题的过程中，它同时存储可转移的知识，最终形成一个具有专业推理能力，同时保持跨场景泛化弹性的智能系统。我们认为，在线强化学习的交互式学习方法和离线验证方法可能会迭代地持续激发LMRMs的能力，这些方法已在GUI智能体模型（Qin等人，2025；Zheng等人，2025a；Wang等人，2024n）中得到应用，以不断提高性能。

• 数据合成：当前LMRMs的能力在很大程度上是数据驱动的。为了在预训练阶段增强这些模型，开发一个高质量的数据合成管道以定制其功能至关重要。目前在数据合成方面的大多数工作（Chang等人，2024；Huang等人，2025c；Xu等人，2024c）主要集中在提高单模态或跨模态的理解和推理，特别是在视觉、语言和语音等领域。然而，对于更复杂的方面，如对齐三种或更多模态、创建多模态交互思维链和视觉生成、在动态环境中实施多步规划以及协调多工具调用和并行工具使用，探索较少。这些领域为推进多模态推理模型提供了重要机会。

总之，我们引入N-LMRM的概念，作为从有能力的推理者向自主智能体转变的第一步。此外，与OpenAI通往通用人工智能（AGI）的五阶段路径（OpenAI，2023）相一致，我们正在为后续阶段奠定基础，包括自我进化的创新者（Yamada等人，2025）和多智能体组织（Zhang等人，2025d）。基于我们的研究建议，未来的工作可以探索更多的智能体和全模态能力，推动日益自主的机器智能的发展。

要点总结：原生大型多模态推理模型（LMRMs）：在本节中，我们研究了最新的大型多模态模型（如O3和O4-mini）及其在具有挑战性的任务和基准测试上的性能。然后，我们从能力范围和水平方面提出了原生多模态大型模型的未来发展方向，包括全模态感知和理解、多模态交互式生成推理和智能体行为。为了实现这一愿景，我们讨论了与统一感知、学习方法和数据合成相关的方法。我们希望原生LMRMs作为机器智能的一种范式转变，能够实现全面感知、精确理解和深度推理。

5 数据集和基准测试

在探索多模态推理模型的发展和优化过程中，大量的任务和基准测试被提出，用于从各个方面评估模型性能，如视频理解和视觉推理，从而进行实证能力评估和分析。在本节中，我们根据能力将现有的有助于多模态推理模型发展的数据集进行总结和分类，主要分为四类：（1）理解；（2）生成；（3）推理；（4）规划。然后，我们总结这些基准测试或数据集常用的指标和评估方面。基准测试是为特定能力评估而设计的，我们将其分为四个主要类别，如图10所示，以及十一个子类别，如表9所示。

5.1 多模态理解

多模态理解指的是模型处理和解释来自多种模态（如视觉和听觉数据）的信息，以执行需要理解、推理和生成的任务的能力。这些任务对于开发能够以更类似人类的方式与现实世界交互并做出响应的模型至关重要。根据任务定义，现有的多模态理解任务大致可分为两个主要领域：1）以视觉为中心的理解，涵盖模型理解和推理视觉内容的能力；2）以音频为中心的理解，专注于涉及音频（如语音、音乐和环境声音）的任务。

5.1.1 以视觉为中心的理解

以视觉为中心的理解评估模型对视觉数据（如图像和视频）的理解和推理能力，涉及各种专门任务。这些任务可大致分为以下领域：一般视觉理解、文档和图表解释、多语言视觉推理、视频理解、数学和科学推理以及综合基准测试。每个领域都涉及视觉理解的不同方面，从自然图像中的对象识别和空间推理到对结构化视觉数据（如文档和图表）的解释。下面，我们详细探讨每个类别，突出其关键特征和挑战。

• 一般视觉理解：一般视觉问答（VQA）数据集在复杂性和范围上都有了显著发展。早期的数据集，如VQA（Kafle & Kanan，2016）和GQA（Ainslie等人，2023），主要侧重于自然图像中的对象识别、属性识别和简单的空间推理。这些数据集通常包含图像 - 问题 - 答案三元组，问题格式简单（例如，“汽车是什么颜色的？”）。重点主要放在自然图像和基本感知上。最近的数据集，如ALIGN（Jia等人，2021）旨在解决更复杂的视觉 - 语言任务，包括图像 - 文本对齐和多模态表示。Visual Genome（Krishna等人，2016）通过包含关系和对象级信息扩展了视觉理解，从而推动了推理的边界。LAION-400M数据集（Schuhmann等人，2021）是最大的图像 - 文本对集合之一，为视觉 - 语言模型的大规模训练提供了支持。LAION-5B数据集（Schuhmann等人，2022）为大规模图像 - 文本表示提供了强大的数据集，而FILIP（Yao等人，2021）和YFCC100M（Thomee等人，2016）将视觉和语言集成在一起，提高了模型在各种基准测试中的性能。
• 文档、图表和OCR视觉理解：基于文档、图表和OCR的VQA数据集构成了一个专门领域，专注于理解包含文本元素的结构化视觉信息。以DocVQA（Mathew等人，2021）为代表的文档VQA旨在理解文档，要求模型在文档中定位和解释文本以回答问题。图表VQA，如DVQA（Kafle等人，2018），侧重于解释视觉数据表示，包括条形图、折线图和饼图，测试模型对这些结构的理解能力。像TextVQA（Singh等人，2019）和OCR-VQA（Mishra等人，2019）这样的OCR - VQA数据集强调对自然图像中嵌入文本的阅读和推理。这些数据集有几个独特的特点：1）OCR与视觉理解的关键集成；2）结合文本和视觉元素的多步推理；3）关于文档结构、图表惯例或文本布局的特定领域知识。与一般的VQA数据集不同，这些集合高度强调视觉和文本内容之间的相互作用，要求模型在更结构化的上下文中跨模态进行联系。此外，像AI2D（Hiippala等人，2021）这样的数据集专注于图表和结构化视觉表示，增强了对图形内容的推理能力。
• 多语言视觉理解：多语言视觉理解数据集满足了多模态系统中对语言多样性日益增长的需求。像CMMLU（Li等人，2024f）、C-Eval（Huang等人，2023c）、Exams-v（Das等人，2024）、M3exam（Zhang等人，2023e）、VideoVista-CulturalLingo（Chen等人，2025e）和MTVQA（Tang等人，2024）这样的数据集超越了以英语为中心的VQA系统。这些数据集的特点是：1）集成了多种语言的问题和注释，涵盖各种语言家族；2）在不同文化背景下测试视觉理解和语言能力；3）要求模型理解可能具有特定文化解释或参考的视觉概念。与单语言VQA数据集不同，这些多语言数据集评估并增强了MLLMs的跨语言转移能力。
• 视频理解：视频理解数据集，如ActivityNet-QA（Yu等人，2019a）和PerceptionTest（Patraucean等人，2023），越来越多地用于训练和评估动态视觉任务中的模型。与静态图像数据集相比，这些数据集要求模型处理基于时间的理解，涉及多个帧中的动态视觉特征。它们包括动作、事件和时间关系的注释，涵盖从短视频片段到几分钟长的视频的不同视频时长。现有的视频评估数据集已经扩展，以应对诸如科学领域（例如Video-MMMU（Hu等人，2025b））、长视频领域（例如Video-MME（Fu等人，2024a））以及全面的视频理解和推理（例如VideoVista（Li等人，2024k））等挑战。VideoVista提供了一个多功能的基准测试，具有14类视频，时长从几秒到超过10分钟不等，涵盖19个理解任务和8个推理任务。它利用由GPT-4o驱动的自动注释框架，提高了其可扩展性和多样性。像YouTube8M（Abu-El-Haija等人，2016）这样的数据集已成为大规模视频分类和多模态理解的基础。此外，VidGen-1（Deng等人，2022）专注于视频生成任务，需要模型理解视频内容以生成连贯的视频序列。
• 数学和科学推理：用于数学和科学推理的数据集，如MathVista（Lu等人，2024）和ScienceQA（Lu等人，2022），将视觉与数学或科学概念相结合。这些数据集要求模型理解视觉输入中的数学或科学信息，并进行推理以得出答案。例如，MathVista涵盖代数、几何和微积分等主题，ScienceQA包含来自物理学、化学和生物学等领域的问题。它们的独特之处在于将视觉与抽象概念相结合，需要模型整合多模态信息进行推理。与一般的视觉理解数据集不同，这些数据集测试模型在特定领域的推理能力，需要对数学或科学原理有深入理解。
• 综合基准测试：综合基准测试，如MMMU（Yue等人，2024）和AGIEval（Zhong等人，2024b），涵盖了广泛的多模态任务，包括视觉理解、推理和生成。这些基准测试旨在评估模型在不同任务和模态下的整体性能。它们包含多样化的输入，如文本、图像和视频，并提出各种问题，从简单的视觉问答到复杂的推理任务。例如，MMMU包括图像描述、视觉推理和多模态对话等任务，AGIEval评估模型在多个领域的推理能力。这些基准测试的特点是其全面性，结合了多种模态和任务，为模型性能提供了更广泛的评估。

5.1.2 以音频为中心的理解

以音频为中心的理解任务评估模型处理和推理音频数据的能力，包括语音、音乐和环境声音。这些任务对于开发能够理解和响应音频输入的模型至关重要，例如语音助手和音频分析系统。以音频为中心的理解数据集可以分为以下几类：

• 语音理解：语音理解数据集，如Librispeech（Panayotov等人，2015）和Aishell（Bu等人，2017），主要关注模型对语音内容的理解。这些数据集包含大量的语音转录，用于训练和评估模型的语音识别和理解能力。它们的特点是包含不同口音、语速和语言风格的语音数据，测试模型在各种语音条件下的性能。例如，Librispeech是一个大规模的英语语音数据集，涵盖了多种主题和演讲者，Aishell是一个中文语音数据集，具有丰富的语言多样性。
• 音频描述和字幕生成：像Clotho（Drossos等人，2020）和AudioCaps（Kim等人，2019）这样的数据集专注于音频描述和字幕生成任务。这些数据集要求模型根据音频内容生成文本描述或字幕，测试模型对音频信息的理解和语言生成能力。Clotho是一个音频描述数据集，包含各种音频样本及其相应的描述，AudioCaps专注于音乐音频的字幕生成。它们的独特之处在于将音频理解与语言生成相结合，需要模型捕捉音频中的关键信息并以文本形式表达。
• 音乐理解：音乐理解数据集，如MusicNet（Thickstun等人，2017）和MusicCaps（Agostinelli等人，2023），侧重于模型对音乐相关信息的理解。这些数据集包含音乐音频、歌词和音乐知识，用于评估模型对音乐内容的分析和推理能力。例如，MusicNet包含不同类型的音乐和相应的音乐理论知识，MusicCaps专注于音乐音频的字幕生成和音乐理解任务。它们要求模型理解音乐元素，如旋律、节奏和和声，并将音乐与文本信息相结合。
• 环境声音理解：用于环境声音理解的数据集，如AVE-PM（Liu等人，2025b）和Air-Bench（Yang等人，2024d），关注模型对环境声音的识别和理解。这些数据集包含各种环境声音，如自然声音、城市声音和特定场景的声音，用于训练和评估模型对环境声音的分类和推理能力。例如，AVE-PM包含不同环境中的声音样本，Air-Bench专注于空气质量相关声音的理解。它们测试模型在复杂环境声音场景中的感知和推理能力，需要模型区分不同的声音类别并理解声音与环境的关系。

5.2 多模态生成

多模态生成任务要求模型根据多种模态的输入生成输出，例如根据文本描述生成图像，或根据图像和文本生成视频。这些任务对于创建能够生成多样化和高质量多模态内容的模型至关重要。多模态生成数据集可以分为以下两类：

5.2.1 跨模态生成

跨模态生成数据集专注于模型在不同模态之间转换的能力，例如文本到图像（T2I）、图像到文本（I2T）和视频到文本（V2T）的生成任务。

• 文本到图像生成：T2I数据集，如MS-COCO（Lin等人，2014b）和Conceptual Captions（Sharma等人，2018），提供文本描述和相应的图像，用于训练和评估T2I模型。最近的数据集，如T2I-CompBench++（Huang等人，2025a）和GenAI-Bench（Li等人，2024a），专门用于评估T2I模型的性能，涵盖了各种文本描述和图像生成任务。这些数据集的特点是多样化的文本输入和高质量的图像输出，测试模型生成与文本描述相符的图像的能力。
• 图像到文本生成：I2T数据集，如Flickr30k（Plummer等人，2017）和RedCaps（Desai等人，2021），要求模型根据图像生成文本描述，如标题或故事。这些数据集用于训练和评估模型的图像理解和语言生成能力。它们包含不同类型的图像和相应的文本注释，测试模型捕捉图像内容并以文本形式表达的能力。
• 视频到文本生成：V2T数据集，如WebVid-2M（Li等人，2021c）和How2（Zhou等人，2018），专注于根据视频内容生成文本描述或字幕。这些数据集包含视频片段及其相应的文本注释，用于训练和评估模型的视频理解和语言生成能力。它们要求模型理解视频中的视觉和音频信息，并生成连贯的文本输出，测试模型在多模态输入下的生成能力。

5.2 多模态生成（续）

5.2.2 联合多模态生成

联合多模态生成数据集旨在评估模型同时处理多种模态输入并生成多模态输出的能力，例如根据文本和图像生成视频，或根据音频和文本生成图像。

• 多模态内容创建：像DreamLLM（Dong等人，2023）和NextGPT（Wu等人，2024a）这样的数据集，推动模型生成多模态内容，如视频、图像和文本的组合。这些数据集要求模型整合不同模态的信息，生成连贯且语义一致的多模态输出。例如，DreamLLM专注于视频生成，结合了文本描述和图像输入，NextGPT旨在生成多样化的多模态内容，包括图像、文本和视频。
• 多模态对话和交互生成：用于多模态对话和交互生成的数据集，如SEED-Story（Yang等人，2024f）和OpenLEAF（An等人，2024），评估模型在多模态对话场景中生成响应的能力。这些数据集包含多模态输入（如图像、音频和文本）和相应的对话响应，测试模型理解多模态上下文并生成合适回复的能力。它们强调模型在多模态交互中的适应性和连贯性，需要模型整合多种模态信息以生成有效的对话响应。

5.3 多模态推理

多模态推理任务要求模型整合来自多种模态的信息进行逻辑推理，例如结合图像和文本进行视觉推理，或结合音频和文本进行听觉推理。多模态推理数据集可以分为以下两类：

5.3.1 一般视觉推理

一般视觉推理数据集评估模型在视觉内容（如图像和视频）上的推理能力，结合文本或其他模态的信息。

• 视觉问答和推理：VQA数据集，如VCR（Zellers等人，2019）和TDIUC（Kafle & Kanan，2017），要求模型根据图像和问题生成答案，测试模型对视觉内容的理解和推理能力。最近的数据集，如NaturalBench（Li等人，2024b）和MMBench（Liu等人，2024f），涵盖了更广泛的视觉推理任务，包括图像描述、视觉关系理解和多模态对话。这些数据集的特点是多样化的问题类型和复杂的视觉内容，测试模型在不同视觉推理场景下的性能。
• 视觉关系推理：用于视觉关系推理的数据集，如Visual Genome（Krishna等人，2016）和CLEVR（Johnson等人，2016），专注于模型对图像中对象之间关系的理解和推理。这些数据集包含图像、对象注释和关系信息，要求模型识别和推理对象之间的空间、语义和功能关系。它们测试模型在视觉关系推理方面的能力，需要模型理解图像中的对象及其相互作用。
• 视频推理：视频推理数据集，如ActivityNet-QA（Yu等人，2019a）和Video-MMLU（Song等人，2025a），评估模型在视频内容上的推理能力。这些数据集包含视频片段、问题和答案，要求模型理解视频中的动态信息并进行推理。它们涵盖了各种视频场景，如动作识别、事件理解和时间推理，测试模型在视频推理任务中的性能。

5.3.2 特定领域推理

特定领域推理数据集专注于模型在特定领域（如数学、科学和地理）的多模态推理能力，结合视觉、文本和其他模态的信息。

• 数学和科学推理：MathVista（Lu等人，2024）和ScienceQA（Lu等人，2022）等数据集将视觉与数学或科学概念相结合，要求模型理解视觉输入中的数学或科学信息并进行推理。这些数据集涵盖了代数、几何、物理学、化学等领域的问题，测试模型在特定领域的多模态推理能力。它们需要模型整合视觉和文本信息，应用数学或科学原理解决问题。
• 地理和环境推理：用于地理和环境推理的数据集，如GeoQA（Chen等人，2022a）和UrbanVideo-Bench（Zhao等人，2025a），结合视觉和地理信息，评估模型对地理和环境问题的推理能力。这些数据集包含地图、卫星图像、地理文本和问题，要求模型理解地理空间信息并进行推理。它们测试模型在地理和环境领域的多模态推理能力，需要模型整合视觉和文本信息，理解地理概念和环境关系。

5.4 多模态规划

多模态规划任务要求模型根据多种模态的输入进行规划和决策，例如在GUI导航任务中结合视觉和文本信息，或在具身环境中结合视觉、音频和文本信息进行操作规划。多模态规划数据集可以分为以下两类：

5.4.1 GUI导航

GUI导航数据集评估模型在图形用户界面（GUI）环境中进行导航和操作的能力，结合视觉和文本信息。

• 网页导航：WebArena（Zhou等人，2024c）和Mind2Web（Deng等人，2023）等数据集专注于模型在网页环境中的导航任务。这些数据集包含网页界面、文本指令和导航目标，要求模型理解网页内容和指令，进行导航操作以完成任务。它们测试模型在网页导航任务中的规划和决策能力，需要模型整合视觉和文本信息，理解网页结构和指令语义。
• 操作系统导航：用于操作系统导航的数据集，如OSWorld（Xie等人，2024a）和Windows Agent Arena（Bonatti等人，2024），评估模型在操作系统界面中进行导航和操作的能力。这些数据集包含操作系统界面、文本指令和操作目标，要求模型理解操作系统界面和指令，进行操作以完成任务。它们测试模型在操作系统导航任务中的规划和决策能力，需要模型整合视觉和文本信息，理解操作系统的交互方式和指令语义。

5.4.2 具身和模拟环境

具身和模拟环境数据集评估模型在具身环境（如机器人操作和虚拟环境导航）中进行规划和操作的能力，结合视觉、音频和文本信息。

• 机器人操作：MineDojo（Fan等人，2022）和Habitat 3.0（Puig等人，2024）等数据集专注于模型在机器人操作任务中的规划和决策能力。这些数据集包含虚拟环境、视觉输入、音频反馈和操作指令，要求模型理解环境信息和指令，进行操作规划以完成任务。它们测试模型在机器人操作任务中的具身推理和操作能力，需要模型整合多模态信息，理解环境动态和操作目标。
• 虚拟环境导航：用于虚拟环境导航的数据集，如SAPIEN（Xiang等人，2020）和HomeRobot（Yenamandra等人，2023），评估模型在虚拟环境中进行导航的能力。这些数据集包含虚拟环境、视觉输入、音频反馈和导航目标，要求模型理解环境信息和目标，进行导航规划以到达目标位置。它们测试模型在虚拟环境导航任务中的具身推理和导航能力，需要模型整合多模态信息，理解环境结构和导航指令。

5.5 评估方法

多模态推理模型的评估方法对于准确衡量模型在各种任务和模态上的性能至关重要。常见的评估指标包括：

• 准确率：准确率是评估模型预测正确答案的比例，常用于分类任务，如视觉问答和音频分类。例如，在VQA任务中，准确率衡量模型回答问题的正确性。
• 召回率：召回率衡量模型正确识别正例的能力，对于需要识别特定对象或事件的任务（如目标检测和事件识别）很重要。
• F1分数：F1分数是准确率和召回率的调和平均数，综合考虑了模型的准确率和召回率，提供了一个更全面的性能评估指标。
• BLEU分数：BLEU分数常用于评估生成任务（如文本生成和图像描述生成）中生成文本与参考文本的相似性。它衡量生成文本中n-gram与参考文本中n-gram的匹配程度。
• METEOR分数：METEOR分数是另一种用于评估文本生成任务的指标，它结合了单词对齐和语义相似性，能够更准确地评估生成文本的质量。
• ROUGE分数：ROUGE分数主要用于评估文本摘要任务，它衡量生成摘要与参考摘要之间的重叠程度，包括ROUGE-1、ROUGE-2和ROUGE-L等变体。
• CIDEr分数：CIDEr分数用于评估图像描述生成任务，它通过计算生成描述与多个参考描述之间的相似性来衡量描述的质量。

此外，一些基准测试还采用了人工评估方法，如众包评估和专家评估，以补充自动评估指标，提供更全面的模型性能评估。这些评估方法的选择取决于具体的任务和数据集，不同的任务可能需要不同的评估指标来准确衡量模型的性能。

6 结论

在本综述中，我们对大型多模态推理模型（LMRMs）进行了全面的回顾，涵盖了其发展的各个方面，从早期的模块化推理系统到最先进的原生大型多模态推理模型（N-LMRMs）。我们提出了一个结构化的发展路线图，将多模态推理模型的演进分为三个主要阶段：感知驱动的模块化推理、以语言为中心的短推理和以语言为中心的长推理，每个阶段都有其独特的架构设计、学习方法和能力。

早期的多模态推理系统主要依赖于模块化设计，将推理过程分解为表示、对齐、融合和推理组件。随着预训练 - 微调范式的出现，预训练的视觉 - 语言模型（VLMs）统一了多模态表示和推理，但在复杂推理任务中仍存在局限性。以语言为中心的推理方法，如多模态思维链（MCoT），通过将推理过程转化为明确的中间步骤，提高了模型的上下文感知和可解释性。最近，受系统2启发的推理方法强调更深入、更审慎的推理过程，通过跨模态推理、多模态 - O1和多模态 - R1等方法，增强了模型的推理能力和适应性。

我们还引入了N-LMRMs的概念，这是一类具有多模态智能体推理和全模态理解与生成性推理能力的模型。N-LMRMs旨在克服现有LMRMs的局限性，实现更全面的感知、理解和推理能力。通过统一表示、交错多模态长思维链、从世界经验中学习和数据合成等技术，N-LMRMs为开发更智能、更自适应的多模态推理系统提供了新的方向。

此外，我们对多模态推理模型的数据集和基准测试进行了系统的分类和分析。这些数据集和基准测试涵盖了多模态理解、生成、推理和规划等多个方面，为评估模型性能提供了丰富的资源。常见的评估指标包括准确率、召回率、F1分数、BLEU分数、METEOR分数、ROUGE分数和CIDEr分数等，同时也采用了人工评估方法来补充自动评估。

尽管在多模态推理模型的研究中取得了显著进展，但仍存在一些挑战和未来的研究方向。统一表示和跨模态融合仍然是构建强大的多模态推理模型的关键挑战。开发能够处理异构数据和交错多模态推理的模型，以及从世界经验中持续学习和进化的能力，是未来研究的重要方向。此外，提高模型在复杂任务和动态环境中的推理能力，以及开发更有效的评估方法和基准测试，也是需要进一步探索的领域。

总之，本综述旨在为多模态推理模型的研究提供一个全面的框架，为该领域的研究人员提供对当前研究现状和未来发展方向的深入理解。通过解决当前的挑战并探索新的研究方向，我们希望能够推动多模态推理模型的发展，实现更强大、更智能的人工智能系统。