【论文阅读】A Survey on Multimodal Large Language Models

夏洛特兰兰

于 2023-10-22 15:59:52 发布

阅读量1.5k

点赞数 1

文章标签：论文阅读语言模型人工智能

本文链接：https://blog.csdn.net/qq_58400270/article/details/133973992

版权

本文对多模态大语言模型（MLLM）的研究进展进行了跟踪和总结。介绍了MLLM的相关概念，讨论了多模态指令调整、多模态上下文学习、多模态思维链和LLM辅助视觉推理等关键技术和应用，还分析了现有挑战并指出了研究方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

A Survey on Multimodal Large Language Models

S. Yin et al., “A Survey on Multimodal Large Language Models.” arXiv, Jun. 23, 2023. doi: 10.48550/arXiv.2306.13549.

Abstract(翻译)

多模态大语言模型（MLLM）是近年来以强大的大语言模型（LLM）作为大脑任务的多模态研究热点。MLLM令人惊讶的涌现能力，比如基于图像写故事和无ocr的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先，我们提出了MLLM的公式，并描述了它的相关概念。然后，我们讨论了关键的技术和应用，包括多模态指令调整（M-IT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和llm辅助视觉推理（LAVR）。最后，我们讨论了现有的挑战，并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始，我们将继续更新这项调查，并希望它能激发更多的研究。

An associated GitHub link collecting the latest papers is available at

https://github.com/BradyFU/AwesomeMultimodal-Large-Language-Models.

1. Introduction & 2. Overview

LMM在In-Context Learning (ICL) [5], instruction following [4, 6], and Chain of Thought (CoT) [7]等方面都表现良好。但是仅限于理解离散文本，对视觉不敏感。大视觉基础模型在感知方面发展迅速，传统的文本结合注重模态对齐和任务统一，但是在推理方面发展缓慢。

因此，将LLM和视觉模型相结合，就可以带来了MLLM，并带来了一下便利。

(1) MLLM更符合人类感知世界的方式。
(2) MLLM提供了一个更为用户友好的界面。
(3) MLLM是一个更全面的任务解决方案。

本文将近期代表性MLLM分为四种主要类型：多模态指令调整（MIT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和llm辅助视觉推理（LAVR）。

§ 3.1 介绍了多模态指令调整（M-IT），用以解释LLM如何适应多模态（两个方面）。

§ 3.2 介绍了多模态上下文学习（M-ICL），一种在推理阶段提高少样本性能的技术。

§ 3.3 介绍了多模态思维链（M-CoT），用于复杂推理。

§ 3.4 介绍了LLM在辅助视觉推理（LAVR）中的作用。

还有一些研究方向。

3. Method

3.1 Multimodal Instruction Tuning（多模态指令调整）

3.1.1 Introduction

指令（Instruction）是指对任务的描述，指令调整（Instruction tuning）是在指令格式数据集下对预训练LLM进行微调。通过指令微调，LLM可以通过遵循新的指令来泛化到不可见的任务，从而提高零样本（zero-shot）性能。

图1是三种学习范式：Pretrained fintune, Prompting, Instruction tuning
在这里插入图片描述

**预训练-微调（Pretrain-finetune）**需要大量针对具体问题的数据，并且得到的模型通常是针对具体问题的。
**提示（Prompting）**使用精心设计的提示，可以对模型的行为进行控制来应对具体任务。（减少了对大规模数据的依赖，适合少样本学习）
**指令调整（Instruction Tuning）**是通过学习不同的问题来推理其他问题的。（尝试解决零样本问题）

部分最新的工作是将LLM指令调整扩展到多模态，在数据和模型两个方面做调整。

数据部分使用了现有的基准数据集和自我指令（self-instruction，研究人员自己标注）实现。
在模型方面，在LLM中加入了其他模态的数据，并将它们视为强力推理者（strong reasoner)。
- 一种方法是将不同模态的嵌入向量对齐到同一维度（align foreign embeddings）
- 另一种方法是借助专家模型（resort to expert models）将其他模态的信息转化为自然语言并进行处理。

在以下几个部分中介绍的任务是：

§ 3.1.2 基础知识
§ 3.1.3 对齐预训练
§ 3.1.4 收集M-IT数据的方法
§ 3.1.5 将不同模态的信息联合起来
§ 3.1.6 评估 Instruction-tuned MLLMs 的方法

3.1.2 Preliminaries（准备工作）

Table 1 提供了一个多模态指令的数据模板。<BOS>和<EOS>是文本序列的起始和结尾。

在这里插入图片描述

<instruction>是问题的文本描述，{<image>, <text>}以及

<output>是从数据样本中提取出的输入输出（可能缺少<text>）。

可以将多模态样本标记为 $(\mathcal{I},\mathcal{M},\mathcal{R})$ ，预测的过程如下：
$\mathcal{A}=f(\mathcal{I},\mathcal{M},\theta)$
符号说明： $\mathcal{I}: instruction,\ \mathcal{M}: multimodal input,\ \mathcal{R}: groundtruth$

$\mathcal{A}: answer,\ \theta: parameters$ 。

训练目标通常是用于训练LLMs的原始自回归目标（auto-regressive objective），MLLM被要求预测响应中的下一个标记（token）。目标的数学表示为：
$\mathcal{L}(\theta)=-\sum_{i=1}^{N}\log p(\mathcal{R}_i|\mathcal{I},R_{<i},\theta)$

关于 auto-regressive objective
自回归是一种生成模型的训练方法，在该方法中，模型被要求根据先前生成的标记来预测下一个标记。原始的自回归目标是让模型在训练过程中根据上下文生成连续的标记序列，以最大化生成序列的概率。

3.1.3 Modality Alignment

通常需要使用大规模预训练。
一种常用的方法是保持预训练模块冻结，并训练一个可学习的接口。

在对齐预训练过程中，我们主要关注的是训练一个可学习的接口，它的作用是将这些预训练模块连接起来并进行整合。这个接口可以是一个神经网络层或模块，它将视觉编码器和LLMs的输出进行处理和融合，以便在多模态任务中得到最佳的性能。

3.1.4 Data

M-IT的数据收集大致分为以下几种：基准自适应（benchmark adaptation）、自我指导（self-instruction）和混合组合（hybrid composition）。指令的设计方面包括两种：手动和GPT辅助设计。

在这里插入图片描述

**基准自适应（Benchmark Adaptation）**数据集拥有丰富的高质量数据，可以利用现有的数据构建指令格式化数据集（instruction-formatted datasets）。

以VQA数据集转换为例，作者介绍了两种获得数据集的方式：

手动设计指令：一些工作通过手动设计一组候选指令，并在训练过程中从中随机选择一条。这些指令作为任务的描述，用于指导模型生成相应的回答。这种方式需要人工参与，根据任务的需要或者领域知识，设计出一组合适的指令候选集。
GPT辅助生成指令：另一些工作则使用GPT模型辅助生成指令。首先，他们手动设计一些种子指令，然后使用这些指令作为提示，通过GPT模型生成更多的指令。这种方式利用了GPT模型的生成能力，根据给定的种子指令生成任务描述。

在这里插入图片描述

如何解决因VQA等问题中回答较短的问题？

**修改指令（modify instructions）**以适应MLLM生成较长回答的需求。
扩展现有答案来适应MLLM生成较长回答的需求。

**自我指导（self-instruction）**数据集解决了基准自适应通常无法满足人类需求（例如多轮对话）的问题。这些方法利用少量手工注释的样本，引导LLM（Language Learning Models）生成文本指令遵循的数据。

**混合组合（Hybrid Composition）**主要是将语言仅的用户-助手对话数据和M-IT数据（多模态指令-目标数据）结合在一起，作为训练数据的一部分。语言仅的用户-助手对话数据主要是关于对话交互的文本数据，而M-IT数据是多模态任务的数据，包含了指令和相关的多模态信息。这两种数据在类型、内容和用途上都有所不同，但它们的结合使用可以提供更全面和丰富的训练信号，以改进模型的对话能力和指令遵循能力。

基准自适应中提到的GPT辅助生成指令和自我指导数据集的区别如下。

GPT辅助生成指令：
GPT模型作为一个辅助工具，用于生成指令样本。
设计种子样本：选择图像和对应的人工标注描述作为种子样本。
GPT模型生成：使用图像作为输入提示，GPT模型生成辅助性的指令，如"描述图像中的物体、场景或情感"。
人类生成：基于GPT生成的指令，人类进一步生成图像描述样本。
扩充数据集：将人类生成的样本与种子样本结合，形成扩充的数据集。

自我指导方法：
模型直接生成训练样本，无需人类的中间步骤。
设计种子样本：选择图像和对应的人工标注描述作为种子样本。
模型生成：使用已经训练好的模型（如ChatGPT或GPT-4），将图像作为输入，模型直接生成与图像相关的训练样本。
扩充数据集：将生成的样本与种子样本结合，形成扩充的数据集

3.1.5 Modality Bridging（模态桥接）

模态桥接的方法有两种：

在于训练的视觉编码器和LLM之间引入一个可学习的接口。
借助专家系统将图像信息转化为自然语言并送入LLM。

在这里插入图片描述

1、可学习的接口（Learnable Interface）

在传统的模型优化方法中，参数通常是通过离线训练和调整得到的，并且在模型部署后很少改变。但是，Learnable Interface的思想是将接口本身视为可学习的组件，使模型能够自适应地调整接口以适应不同任务和环境。可学习的接口提供了一种机制，用于将不同模态的表示进行对齐、融合或传递信息。这种表示可以是一组可学习的权重、参数或特殊的输入表示等。有三种形式：

**基于查询（query）的方法。**通常是为了引导模型的语言模块（文本编码器）在多模态学习中关注与查询相关的信息。引导模型的关注点。
**基于投影（projection）的方法。**其中图像特征被投影到与语言模型相同的表示空间。将不同模态信息嵌入同一空间。
**基于参数调整（parameter-efficient tuning）的方法。**目标是通过在小规模数据集上进行参数搜索和微调，使模型能够学习到适应特定任务的最佳参数配置。面对不同问题使用不同的参数。

**2、专家模型（Expert Model）**将多模态输入转换为语言并传入LLM，但是这种方式通常会导致信息丢失。

3.1.6 Evaluation

评估M-IT之后的模型性能主要考虑闭集（close-set）和开集（open-set）。
在这里插入图片描述

闭集是指问题的答案是属于一个有限集合（finite set）。因此对模型的评估在基础自适应数据集（benchmark-adapted datasets）上进行。测试设置分为两种
- **零样本（zero-shot）：**在没训练过的数据集中进行，测试模型的泛化能力。
- **微调（finetuing）：**常用于评估模型在特定领域或下游任务上的性能
上述评估方法通常被局限在特定的任务或数据集中，缺乏全面的定向比较。为了解决这个问题，可以通过增加一些新的基准自适应数据集。

开集的答案比较开放，通常MLLM的作用是作为chatbot。对开集问题的评判标准有以下三种
- **手动评分（manual scoring）：**需要人工评估生成的回答。这种方法通常涉及手工设计的问题，旨在评估特定的维度。
- **GPT评分（GPT scoring）：**使用GPT对回答的不同方面（准确性和帮助性）进行评分，减少了人工工作量，这种方法通常用于评估多模态对话的性能。但是GPT-4的多模态接口并未公开，因此上限是优先的。
- **案例比较（case study）：**通过设计具体的场景或情境，测试模型在实际应用中的表现和能力。

其他评估指标
- “敏感性”（sensitivity）：提出了模型对不同指令的鲁棒性。
- POPE：来评估模型在这方面的性能。对象幻觉是指模型在没有明确对象信息的情况下，是否能够生成与指令相符的对象。
- 对抗攻击的鲁棒性（Adversarial robustness）：

3.2 Multimodal In-Context Learning（多模态上下文学习）

ICL两个优点：

ICL使用类比（analogy）学习，通过少量示例和可选指令进行学习，可以在行的问题上进行外推，解决复杂的未知问题。
以无需训练的方式（training-free）实现，可以灵活地集成到各个框架中，指令调整可以增强ICL的能力。

在推理过程中，M-ICL通过在原样本上加入一个演示集合（demonstration set）来组成上下文。演示集合通常由具有代表性的示例组成，这些示例与目标任务相关，并能够涵盖任务的不同方面和情况。
在这里插入图片描述

在多模态应用方面，M-ICL主要用于两种场面：

解决各种视觉推理任务，涉及从少量特定任务示例学习并推广到新的相似问题。
教授LLM使用外部工具，涉及使用文本示例来执行一系列按序执行的步骤以完成任务，细粒度更高。

3.3. Multimodal Chain of Thought（多模态思维链）

CoT展示推理过程中的一系列步骤，不仅输出答案，而且包括推理过程。多模态思维链主要包括一下几点：
§ 3.3.1 模态桥接

§ 3.3.2 关于M-CoT的不同范式

§ 3.3.3 具体配置

§ 3.3.4 思维链的公式

3.3.1 Modality bridging

与§ 3.1.5类似，模态桥接也是通过可学习接口和专家模型两种方式。

Learnable Interface： 将视觉嵌入映射到单词嵌入空间的方法，映射后的嵌入可以作为提示（prompt），与其他语言一起发送给LLMs，以引发多模态链式推理（M-CoT reasoning）。

Expert Model：将视觉信息转为文本。

3.3.2 Learnable Paradigms（学习范式）

广义上有三种获取M-CoT能力的方式，即通过微调（finetuning）和少样本\零样本无需训练的学习。这三种方式所需样本数量从高到低排列。

在这里插入图片描述

微调：例如在CoT-PT中，通过提示调优（prompt tuning）和特定步骤的视觉偏置（step-sepecific visual bias）从而学习隐式的推理链。

提示调优是指微调porompt的内容来优化模型性能。
特定步骤的视觉偏置是指为每个推理步骤引入特定的视觉信息，以帮助模型在每个步骤中进行推理。在此过程中模型可以借助上下文信息来优化推理过程。

少样本、零样本无需训练学习 的计算效率较高。

少样本学习需要一些手工标注的上下文样例以便模型能一步一步学习；而零样本学习则不需要具体的实例。

一些任务会提示模型有关任务的信息或者将任务划分为子任务。

3.3.3 Chain Configuration

思维链配置可分为自适应性（adaptive）和预定义（pre-defined）模式。前者需要模型自行判断停止的时间，而后者设置了思维链长度。

在这里插入图片描述

形成思维链的过程涉及到模型对问题进行推理和逐步生成答案的过程。下面是一种常见的方法来形成思维链：
1、提供问题和初始提示：将问题和一个初始的提示输入给模型作为开始。初始提示可以是一个简单的问题描述或是一些初步的信息。
2、生成推理步骤：模型开始进行推理，根据问题和当前的提示生成一个推理步骤。这个步骤可以是一个中间的推理结论、一个证据或是一个问题的分解。
3、更新提示：将生成的推理步骤与当前的提示结合起来，形成一个更新的提示。这个更新的提示将包含之前的推理步骤并提供更多的上下文信息供模型继续推理。
4、重复步骤2和步骤3：重复进行步骤2和步骤3，通过生成新的推理步骤和更新提示的方式逐步扩展和完善思维链。
5、终止条件：在某个终止条件满足时结束思维链的生成。这个终止条件可以是达到最大步骤数、生成了最终答案、无法进一步推理等。

3.3.4 Generation Patterns

在这里插入图片描述

当前关于思维链构建有两种主要模式：和基于预测（predicting-based）。

基于补充模式（infilling-based pattern） 要求通过推断前后步骤之间的逻辑关系来==填补思维链中的逻辑差距。==它需要推断出前后步骤之间的推理步骤，以使思维链的逻辑连贯。
基于预测模式（predicting-based pattern）：要求在给定条件（如指令和先前的推理历史）的情况下扩展推理链。它通过预测生成额外的推理步骤，以扩展思维链。

3.4 LLM-Aided Visual Reasoning（LLM辅助视觉推理）

3.4.1 Introduction

工具辅助语言模型（tool-augmented LLMs）促进了一些研究，进一步构建了针对特定任务（task-specific）或通用（general-purpose）的视觉推理系统。与传统的视觉推理模型相比，这些工作在泛化能力、新型能力以及互动性和控制性 等方面具有优势。

这一部分的主要内容包括：

§ 3.4.2 训练范式（Training Paradigms）

§ 3.4.3 LLM在视觉系统中的作用

3.4.2 Training Paradigms

LLM辅助视觉推理系统根据训练范式被分为无需训练和微调两种。

无需训练（Training-free） 的方式主要通过冻结预训练模型并直接提示（prompt）LLM来满足不同需求，根据设置不同可以分为少样本和零样本两类。

Few-shot模型需要少量手工编写的上下文样本来指导LLMs生成一个程序或一系列执行步骤。这些程序或执行步骤作为指令用于相应的基础模型或外部工具/模块。
Zero-shot模型更进一步地利用LLMs的语言/语义知识或推理能力。例如，PointCLIP V2使用GPT-3直接生成具有与3D相关的语义的描述，以更好地与相应的图像对齐。在CAT中，LLMs根据用户查询指令来优化标题的生成。

**微调（Finetuning）**的方式（见3.1）。收集了一个新的与工具相关的指令数据集，并用于微调模型。

3.4.3 Function（LLM在视觉推理系统中的作用）

在视觉推理系统中，LLM通常有控制器（Controller）、决策者（Decision Maker）和语义优化器（Semantics Refiner）三种功能。

LLM 作为控制者时，主要职责为

将复杂任务分解为更简单的子任务/步骤，工作形式可能是输出任务规划或者调用相应模块。
将这些任务分配给适当的工具/模块，工作形式是为模块的输入输出参数命名以正确传递信息，采用了最少到最多提示（ least-to-most prompting）技术来引导模型生成更准确且具有描述性的参数名称。

关于Least-to-most prompting
该策略的核心思想是，通过逐步增加提示的数量和详细程度，引导LLM生成更准确和具体的输出。最初，系统可能只给出一个简单的提示或要求，以启动LLM的生成过程。然后，根据LLM的输出，逐步增加更多的提示信息，以引导LLM在输出中表达更多细节和精确性。

LLM作为决策者时，复杂任务通常以多轮迭代的方式解决，决策者的主要职责为

总结当前的上下文和历史信息，并决定当前步骤可用的信息是否足以回答问题或完成任务。如果上下文和历史信息判断不够则继续申请更多的信息。
组织和总结答案，以用户友好的方式呈现。

LLM 作为语义优化器时，主要是使用语言学和语义知识。LLMs的任务是对生成的文本进行进一步的优化，以确保语义的准确性、一致性和流畅性。

3.4.4 Evaluation

评估LLM辅助视觉推理系统的方式有两种：基准指标（benchmark-metrics）和人工指标（manual assessment）。前者时在基准数据集上进行测试，后者则采用了一些人工评价指标。
在这里插入图片描述

4. Challenges and Future Directions

该部分总结了一些挑战和未来的方向。

局限性	可能的解决方案
感知能力限制带来的信息缺失和错误	考虑引入大型视觉基础模型来更有效地压缩视觉信息
作者指出MLLMs在推理过程中可能存在脆弱性	需要探索和改进MLLMs在整合视觉信息后的推理能力
指令遵循能力较弱	通过覆盖更多任务来提高泛化能力
幻觉问题导致MLLM的可靠性不高	在视觉模式和文本模式之间执行更细粒度的对齐，例如对SAM分割后的局部特征进行文字描述
需要参数高效的训练	压缩模型结构或者优化训练算法、迁移学习等