多模态大型语言模型（MLLM）综述（非常详细）零基础入门到精通，收藏这一篇就够了

本文链接：https://blog.csdn.net/hacker_j1/article/details/141307074

A Survey on Multimodal Large Language Models

多模态大型语言模型（MLLM）综述

摘要—最近，以GPT-4V为代表的多模态大型语言模型（MLLM）已成为新兴的研究热点，它使用强大的大型语言模型（LLMs）作为“大脑”来执行多模态任务。MLLM出人意料的涌现能力，如基于图像编写故事和无需OCR的数学推理，是传统多模态方法中罕见的，这表明了一条通往人工通用智能的潜在路径。为此，学术界和工业界都致力于开发能够与GPT-4V竞争甚至超越的MLLM，以惊人的速度推动研究的极限。在本文中，我们旨在追踪并总结MLLM的最新进展。首先，我们介绍了MLLM的基本公式，并概述了与其相关的概念，包括架构、训练策略和数据，以及评估。然后，我们介绍了关于如何扩展MLLM以支持更细粒度、模态、语言和场景的研究主题。我们继续讨论多模态幻觉和扩展技术，包括多模态ICL（M-ICL）、多模态CoT（M-CoT）和LLM辅助视觉推理（LAVR）。为了结束本文，我们讨论了现有的挑战并指出了有希望的研究方向。鉴于MLLM时代才刚刚开始，我们将不断更新这份综述，并希望它能激发更多的研究。相关的GitHub链接收集了最新的论文，可在https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models找到。

（注释："无需OCR的数学推理"指的是系统能够直接理解和处理数学内容，而无需首先通过光学字符识别（Optical Character Recognition，OCR）技术将手写或印刷的数学符号转换为机器可读的格式。OCR是一种将图像中的文本转换为机器编码文本的技术，它广泛应用于将纸质文档数字化。然而，OCR在处理复杂的数学符号和公式时可能会遇到困难，因为这些符号的结构和形状可能与普通字母数字字符不同，OCR算法可能难以准确识别。模型能够跳过将数学内容转换为文本的步骤，直接在视觉层面上处理数学信息，这可以提高处理速度和准确性，并且减少因OCR错误而导致的问题。

多模态上下文学习（Multimodal In-Context Learning，M-ICL）结合了自然语言处理（NLP）和计算机视觉（CV）等领域的知识，使模型能够理解和处理包含多种类型信息（如文本、图像、音频等）的数据。上下文学习是指模型利用给定上下文中的信息来指导其学习和推理过程。在M-ICL中，这通常意味着模型会考虑输入的多模态信息，以及它们之间的关系和上下文，来生成输出或做出决策。）

1 引言

近年来，大型语言模型（LLMs）取得了显著的进展[1]、[2]、[3]、[4]、[5]。通过扩大数据规模和模型规模，这些LLMs展现出了非凡的涌现能力，通常包括指令跟随[5]、[6]、上下文学习（ICL）[7]和思维链（CoT）[8]。尽管LLMs在大多数自然语言处理（NLP）任务上展示了惊人的零样本/少样本推理性能，但它们本质上对视觉是“盲目”的，因为它们只能理解离散的文本。同时，**大型视觉模型（LVMs）**可以清晰地“看”[9]、[10]、[11]、[12]，但通常在推理上落后。

鉴于这种互补性，LLM和LVM相互靠近，引领了多模态大型语言模型（MLLM）的新领域。正式来说，它指的是基于LLM的模型，具有接收、推理和输出多模态信息的能力。在MLLM之前，已经有很多工作致力于多模态性，可以分为判别性[13]、[14]、[15]和生成性[16]、[17]、[18]范式。CLIP[13]作为前者的代表，将视觉和文本信息投影到统一的表示空间，为下游多模态任务搭建了桥梁。相比之下，OFA[16]是后者的代表，它以序列到序列的方式统一多模态任务。根据序列操作，MLLM可以被归类为后者，但与传统对应物相比，它表现出两个代表性特征：(1)MLLM基于具有十亿级参数规模的LLM，这在以前的模型中是不可用的。

(2)MLLM使用新的训练范式来释放其全部潜力，例如使用多模态指令调整[19]、[20]来鼓励模型遵循新的指令。

凭借这两个特征，MLLM展现出新的能力，例如基于图像编写网站代码[21]，理解梗的深层含义[22]，以及无需OCR的数学推理[23]。

自从GPT-4[3]发布以来，由于它展示的惊人多模态示例，MLLMs的研究热潮不断。快速发展是由学术界和工业界的努力推动的。MLLMs的初步研究集中在基于文本提示和图像[20]、视频[25]、音频[27]的文本内容生成上。随后的工作已经扩展了能力或使用场景，包括：(1)更好的粒度支持。开发了更精细的对用户提示的控制，以支持通过框[28]或单击[29]特定对象的特定区域。(2)增强的输入和输出模态支持[30]、[31]，如图像、视频、音频和点云。除了输入，像NExT-GPT[32]这样的项目进一步支持不同模态的输出。(3)改进的语言支持。已经做出了努力，将MLLMs的成功扩展到其他语言（例如中文）上，这些语言的训练语料相对有限[33]、[34]。(4)扩展到更多领域和使用场景。一些研究将MLLMs的强大能力转移到其他领域，如医学图像理解[35]、[36]、[37]和文档解析[38]、[39]、[40]。此外，开发了多模态代理以协助现实世界交互，例如具身代理[41]、[42]和GUI代理[43]、[44]、[45]。图1展示了MLLM的时间线。

图1：代表性多模态大型语言模型（MLLMs）的时间线。我们正在见证这一领域的迅速发展。更多的工作可以在我们发布的GitHub页面上找到，该页面每天都在更新。

鉴于该领域的快速发展和有希望的结果，我们编写了这份综述，为研究人员提供了对MLLMs的基本思想、主要方法和当前进展的把握。请注意，我们主要关注视觉和语言模态，但也包括涉及视频和音频等其他模态的工作。具体来说，我们涵盖了MLLMs最重要的方面，并提供相应的总结，并开放了一个将实时更新的GitHub页面。据我们所知，这是关于MLLM的第一份综述。

综述的后续部分结构如下：综述首先全面回顾了MLLMs的基本方面，包括(1)主流架构（§2）；(2)完整的训练策略和数据配方（§3）；(3)常见的性能评估实践（§4）。然后，我们深入讨论了一些关于MLLMs的重要话题，每个话题都集中在一个主要问题上：(1)哪些方面可以进一步改进或扩展（§5）？(2)如何缓解多模态幻觉问题（§6）？综述继续介绍了三种关键技术（§7），每种技术都专门用于特定场景：MICL（§7.1）是一种有效的技术，通常在推理阶段使用，以提高少样本性能。另一个重要的技术是M-CoT（§7.2），通常用于复杂的推理任务。然后，我们概述了一个一般性的想法，开发基于LLM的系统来解决复合推理任务或解决常见用户查询（§7.3）。最后，我们以总结和潜在研究方向结束我们的综述。

2 架构

一个典型的多模态大型语言模型（MLLM）可以抽象为三个模块，即预训练的模态编码器、预训练的大型语言模型（LLM），以及连接它们的模态接口。类比于人类，模态编码器如图像/音频，编码器是接收和预处理光学/声学信号的人类眼睛/耳朵，而LLM就像理解并推理处理信号的人类大脑。在两者之间，模态接口用于对齐不同的模态。一些MLLM还包括一个生成器来输出除文本之外的其他模态。架构的图表在图2中绘制。在这一部分，我们依次介绍每个模块。

图2：典型多模态大型语言模型（MLLM）架构的示意图。它包括一个编码器、一个连接器和一个大型语言模型（LLM）。可选的生成器可以附加到LLM上，以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征，这些特征由连接器处理，以便LLM能更好地理解。大致有三种类型的连接器：基于投影的、基于查询的和基于融合的连接器。前两种类型采用令牌级融合，将特征处理成令牌，与文本令牌一起发送，而最后一种类型在LLM内部实现了特征级融合。

（注释：一个典型的多模态大型语言模型（MLLM）架构的组成部分和它们之间的工作流程。

图片上半部分：

1. **编码器（Encoder）**：编码器是处理输入数据的组件，它可以接收多种模态的输入，如图像、音频或视频。编码器的任务是将这些原始的多模态数据转换成模型可以理解的特征表示。

2. **连接器（Connector）**：连接器是连接编码器输出和大型语言模型（LLM）的桥梁。它的主要作用是将编码器输出的特征进一步处理，使其能够与LLM的输入格式兼容，从而让LLM能够更好地理解这些特征。

3. **大型语言模型（LLM）**：LLM是MLLM的核心，通常是一个预训练的语言模型，负责处理和生成文本。它能够根据输入的文本和其他模态的特征，进行语言理解、生成或推理等任务。

4. **生成器（Generator）**（可选）：生成器是一个可选组件，它可以附加到LLM上，用于生成除文本之外的其他模态输出，如图像、音频或视频。

图片下半部分，连接器主要分为三种类型：

- **基于投影的连接器（Projection-based）**：这种连接器将编码器输出的特征投影到与LLM的词嵌入相同的维度空间，使得特征可以直接与文本令牌一起被LLM处理。

- **基于查询的连接器（Query-based）**：这种连接器使用一组可学习的查询令牌来动态地从编码器输出的特征中提取信息。

- **基于融合的连接器（Fusion-based）**：这种连接器在LLM内部实现特征级别的融合，允许文本特征和视觉特征在模型内部进行更深入的交互和整合。

整个架构的目的是实现对多模态输入的有效处理和理解，以及在此基础上进行的语言生成或推理任务。）

2.1 模态编码器

编码器将原始信息（如图像或音频）压缩成更紧凑的表示形式。与其从头开始训练，更常见的方法是使用已经与其他模态对齐的预训练编码器。例如，CLIP [13]结合了一个通过在图像-文本对上大规模预训练而与文本语义对齐的视觉编码器。因此，使用这种最初已经预对齐的编码器与LLM通过对齐预训练（见§3.1）对齐更容易。

表1：常用图像编码器的总结。

常用的图像编码器系列在表1中总结。除了普通的CLIP图像编码器[13]，一些工作还探索使用其他变体。例如，MiniGPT-4 [21]采用了EVA-CLIP [47]、[48]（ViT-G/14）编码器，该编码器通过改进的训练技术进行训练。相比之下，Osprey [29]引入了基于卷积的ConvNext-L编码器[46]以利用更高分辨率和多级特征。一些工作还探索了无编码器架构。例如，Fuyu-8b [49]的图像块在发送到LLM之前直接被投影。因此，模型自然支持灵活的图像分辨率输入。在选择编码器时，人们通常会考虑分辨率、参数大小和预训练语料库等因素。

值得注意的是，许多工作已经通过实证验证，使用更高分辨率可以实现显著的性能提升[34]、[50]、[51]、[52]。扩大输入分辨率的方法可以分为直接缩放和块分割方法。直接缩放的方式将更高分辨率的图像输入到编码器，通常涉及进一步调整编码器[34]或用更高分辨率的预训练编码器替换[50]。类似地，CogAgent [44]使用双编码器机制，其中两个编码器分别处理高分辨率和低分辨率图像。通过交叉注意力将高分辨率特征注入到低分辨率分支中。块分割方法将高分辨率图像切成块，并重用低分辨率编码器。例如，Monkey [51]和SPHINX [53]将大图像分成较小的块，并将子图像与下采样的高分辨率图像一起发送到图像编码器，其中子图像和低分辨率图像分别捕获局部和全局特征。相比之下，参数大小和训练数据组成与输入分辨率相比不那么重要，这是通过实证研究发

多模态大型语言模型（MLLM）综述（非常详细）零基础入门到精通， 收藏这一篇就够了

多模态大型语言模型（MLLM）综述（非常详细）零基础入门到精通，收藏这一篇就够了