多模态大模型（MM-LLMs）近期概述

x_cube

已于 2024-08-21 09:40:26 修改

阅读量921

点赞数 8

文章标签：人工智能深度学习语言模型 pytorch

于 2024-07-30 19:41:02 首次发布

本文链接：https://blog.csdn.net/qq_41458274/article/details/140750768

版权

《MM-LLMs: Recent Advances in MultiModal Large Language Models》

论文地址：https://arxiv.org/abs/2401.13601

GitHub地址：https://mm-llms.github.io/

1.介绍

目的：MM-LLMs旨在减少计算费用并提高多模态预训练的效率, 因为从头开始训练时会产生大量的计算成本。
挑战：如何有效地将LLM与其他模式的模型连接起来，实现协同推理是MM-LLM面临的核心挑战。
焦点：多模态预训练(PT) + MM指令调优(IT)流程来优化模态之间的对齐并与人类意图对齐。

2.模型架构

在训练期间，模态编码器、LLM主干和模态生成器通常保持在冻结状态。主要的优化重点是输入和输出投影器。如Figure 2中的蓝色部分。

投影器是轻量级组件与总参数数量相比，MM-LLMs中可训练参数的比例通常约为2%。总体参数计数取决于MM-LLMs中使用的核心LLM的规模。因此，MM-LLMs可以有效地训练以赋予各种多模态任务能力。

公式如下，详细见本节后面内容。

2.1 模态编码器

模态编码器的主要功能是将不同模态的输入 $I_x$ 转换成对应的特征表示 $F_x$ 。

图像/视频模态通常有四种可选编码器:ViT 、NFNet-F6(无归一化器的ResNet) 、CLIP ViT 和Eva-CLIP ViT 。音频模态通常由HuBERT 、C-Former 、BEATs 和whisper 编码。3D点云模态通常由ULIP-2编码。统一的编码器：ImageBind。

2.2 Input Projector输入投影器

输入投影器 $\Theta _{X\rightarrow T}$ 的任务是将其他模态的编码特征 $F_x$ 与文本特征空间T对齐。对齐后的特征作为提示 $P_x$ 然后与文本特征 $F_T$ 一起输入LLM主干，给定X-text数据集{ $I_x$ ，t}，目标是最小化X条件的文本生成损失 $L_{txt-gen}$ ：

简单实现(交替使用线性投影器或多层感知器)→复杂实现(比如Cross-attention、Q-Former、P-Former)

2.3 LLM Backbone 大语言模型骨干

MM-LLM可以继承LLMs的一些显著的特性：零样本泛化、少样本ICL、思维链(Chain-of-Thought, CoT)、指令遵循。

2.3.1 LLM主干

处理来自各种模态的表示，参与关于输入的语义理解、推理和决策。它产生

(1)直接文本输出t。

(2)来自其他模态(如果有的话)的信号令牌 $S_x$ 。

这些信号令牌作为指示，指导生成器是否生成MM内容，如果是肯定的，指定要生成的内容。其中其他模态PX的对齐表示可以被认为是LLM主干的软提示调优。

2.3.2 PEFT

此外，一些工作还引入了参数高效微调(PEFT)方法，如Prefix-tuning、LoRA 和LayerNorm
tuning。在这些情况下，额外可训练参数的数量非常少，甚至不到LLM参数总数的0.1%。

MM-LLM中常用的LLM：Flan-T5、ChatGLM 、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2和Vicuna

2.4、Output Projector输出投影器

输出投影器 $\Theta _{T\rightarrow X}$ 将LLM主干的信号到标记表示 $S_X$ 映射为 $H_X$ 可理解的特征，以随后的模态生成器 $MG_X$ 。给定X-text数据集 $\{I_X, t\}$ ，首先将t输入LLM以生成相应的 $S_X$ ，然后将其映射到 $H_X$ 。为了便于对齐映射后的特征 $H_X$ ，目标是最小化 $H_X$ 与 $MG_X$ 的条件文本表示之间的距离:

优化仅依赖于字幕文本，不使用任何音频或视觉资源X，其中 $H_X = \Theta _{T\rightarrow X}(S_X)$ ， τX 是 $MG_X$ 中的文本条件编码器。输出投影器是由一个微型Transformer或MLP实现的。

2.5、Modality Generator模态生成器

模态生成器 $MG_X$ 的任务是产生不同模态的输出。通常，现有的工作使用现成的潜在扩散模型(LDMs) ，即用于图像合成的Stable Diffusion ，用于视频合成的Zeroscope ，以及用于音频合成的AudioLDM-2 。由输出投影器映射的特征 $H_X$ 作为去噪过程中的条件输入，来生成MM内容。

在训练过程中，地面真值内容首先被预训练的VAE转化为潜在特征z0 。然后向z0添加噪音ϵ以获得嘈杂的潜在特征zt。使用预训练的Unet ϵ X计算条件LDM损失LX-gen如下:

3. 训练流程

如何将预训练的仅文本LLM改进为支持多模态输入或输出，主要包括两个阶段：MM PT和MM IT。

3.1 MM PT预训练

在PT阶段，通常利用X-Text数据集，训练输入和输出投影器通过优化预定义的目标来实现各种模式之间的对齐(PEFT有时应用于LLM主干)。对于MM理解模型，优化仅关注公式(2)，而对于MM生成模型，优化涉及公式(2)、公式(4)、公式(5)。在后一种情况下，式(2)还包括真值信号令牌序列。

3.2 MM IT 指令微调

MM IT是一种方法，需要使用一组指令格式的数据集对预训练的MM-LLM进行微调。通过这个调优过程，MM-LLM可以通过遵守新的指令来推广到未见过的任务，从而提高零样本性能。这种直接而有影响力的概念催化了NLP领域后续努力的成功，例如InstructGPT 、OPT-IML 和in - structlip。

MM IT包括监督微调(SFT：Supervised Fine-Tuning)和从人类反馈中强化学习(RLHF：Reinforcement Learning from Human Feedback )，旨在与人类的意图或偏好保持一致，并增强MM-LLM的交互能力。

SFT将部分PT阶段数据转换为指令感知格式。以视觉问答(QA)为例，可以使用各种模板，如(1)< image -age>{Question}问题的简短答案是;(2) <图片>检查图片，用一个简短的答案回答以下问题:{问题}。答:;等等......。接下来，它使用相同的优化目标对预训练的MM-LLM进行微调。SFT数据集可以构建为单回合QA或多回合对话。

在SFT之后，RLHF涉及模型的进一步微调，依赖于MM-LLM响应的反馈(例如，手动或自动标记的自然语言反馈(NLF)) 。该过程采用强化学习算法对不可微NLF进行有效积分。该模型经过训练，在NLF条件下产生相应的响应。

4. SOTA MM-LLMs

Flamingo、BLIP-2、LLaVA、MiniGPT-4、mPLUG-Owl、X-LLM、VideoChat、InstructBLIP、PandaGPT、PaLI-x

Video-LLaMA、Video-ChatGPT、Shikra、DLP、BuboGPT 、ChatSpot、Qwen-VL、NExT-GPT、MiniGPT-5

LLaVA-1.5、MiniGPT-v2、CogVLM、DRESS、X-InstructBLIP、CoDi-2、VILA

现有MM-LLM的趋势：

(1)从专注于MM理解逐渐发展为特定模态的生成，并进一步演变为任意到任意模态的转换(例如，MiniGPT-4→MiniGPT-5→NExT-GPT);

(2)从MM PT到SFT再到RLHF，训练流程不断完善，力求更好地符合人类意图，增强模型的对话交互能力(例如，BLIP-2→InstructBLIP →DRESS);

(3)采用多样化的模态扩展(例如，BLIP-2→X-LLM和InstructBLIP→X-InstructBLIP);

(4)结合更高质量的训练数据集(例如，LLaVA→LLaVA-1.5);

(5)采用更高效的模型架构，从BLIP-2和DLP中复杂的Q-和P-Former输入投影机模块过渡到VILA中更简单但有效的线性投影机。

5. 基准与性能

列出了从各种论文中收集的18个VL基准中的主要MM-LLM。

从SOTA模型中提取出提高MM-LLM有效性的基本训练配方。

首先，更高的图像分辨率可以为模型包含更多的视觉细节，有利于需要细粒度细节的任务。例如，LLaVA-1.5和VILA的分辨率为336 × 336，而Qwen-VL和MiniGPT-v2的分辨率为448 × 448。然而，更高的分辨率会导致更长的令牌序列，从而产生额外的训练和推理成本。MiniGPT-v2通过在嵌入空间中连接4个相邻的视觉标记来减少长度来解决这个问题。最近，Monkey 提出了一种无需重新训练高分辨率视觉编码器即可提高输入图像分辨率的解决方案，该方案仅使用低分辨率视觉编码器，支持分辨率高达1300 × 800。为了增强对富文本图像、表和文档内容的理解，DocPedia 引入了一种将视觉编码器分辨率提高到2560 × 2560的方法，克服了开源ViT中表现不佳的低分辨率限制。其次，纳入高质量的SFT数据可以显著提高特定任务的性能，如将ShareGPT4V数据添加到llva -1.5和VILA-13B中，如表2所示。

此外，VILA揭示了几个关键发现:(1)在LLM骨干上进行PEFT可以促进深层嵌层对准，这对ICL至关重要;(2)交错的图像-文本数据被证明是有益的，而单独的图像-文本对是次优的;(3)在SFT过程中，将纯文本指令数据(例如，非自然指令与图像文本数据重新混合，不仅可以解决纯文本任务的退化问题，还可以提高VL任务的准确性。

6.发展方向

我们可以从以下四个主要途径增强MM-LLM的能力:

(1)扩展模式:目前的MM-LLM通常支持以下模式:图像、视频、音频、3D和文本。然而，现实世界涉及更广泛的模式。扩展MM-LLM以适应额外的模式(例如，网页、热图和图表)将增加模型的多功能性，使其更普遍适用;

(2)多样化的LLM:纳入不同类型和规模的LLM，为从业者提供了根据具体要求选择最合适的LLM的灵活性;

(3)提高MM IT数据集质量:当前MM IT数据集有很大的改进和扩展空间。多样化的指令范围可以提高MM-LLM理解和执行用户命令的有效性。

(4)增强MM生成能力:目前大多数MM-LLM主要面向对MM的理解。尽管一些模型包含了生成MM的能力，但是生成的响应的质量可能受到ldm能力的限制。探索基于检索的方法的集成(Asai等人，2023)在补充生成过程方面具有重要的前景，可能会提高模型的整体性能。

x_cube

关注

8
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
多模态大模型（MM-LLMs）近期概述

目的：MM-LLMs旨在减少计算费用并提高多模态预训练的效率, 因为从头开始训练时会产生大量的计算成本。挑战：如何有效地将LLM与其他模式的模型连接起来，实现协同推理是MM-LLM面临的核心挑战。焦点：多模态预训练(PT) + MM指令调优(IT)流程来优化模态之间的对齐并与人类意图对齐。
复制链接

扫一扫