多模态大语言模型调研《MM-LLMs: Recent Advances in MultiModal Large Language Models》简要介绍

本文是关于论文《MM-LLMs: Recent Advances in MultiModal Large Language Models》的简要介绍。大型语言模型沿着多模态方向发展成为目前越来越受关注的研究领域,这篇论文从方法角度整理了2022年到2024年2月的经典多模态大语言模型,并从技术角度给出了一些前瞻思路。本文主要按照作者提供的框架和案例进行介绍。

有关本专栏的更多内容,请参考大语言模型文献调研专栏目录

1. 文章简介

1.1 基本信息

题目:MM-LLMs: Recent Advances in MultiModal Large Language Models

论文:https://arxiv.org/pdf/2401.13601.pdf?trk=public_post_comment-text

项目主页:https://mm-llms.github.io/

论文引用:

@article{zhang2024mm,
  title={Mm-llms: Recent advances in multimodal large language models},
  author={Zhang, Duzhen and Yu, Yahan and Li, Chenxing and Dong, Jiahua and Su, Dan and Chu, Chenhui and Yu, Dong},
  journal={arXiv preprint arXiv:2401.13601},
  year={2024}
}

1.2 多模态大语言模型简介

GPT诞生以来,一向以强大的自然语言处理能力而著称,人们试着将大型语言模型(Large Language Models,LLM)的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。得益于各个模态的数据都已经有各自的高质量的编码器和生成器,再加上LLM的加持,可以实现很多有趣的任务,多模态的大语言模型(Multi-modal Large Language Models, MM-LLMs)由此而来。

多模态大语言模型的关键是如何将各个模态的模型(例如图像编码器,视频生成器等)与大语言模型结合起来,因为不同的模态是原生的不兼容的。这就涉及到多模态领域中的一个概念:对齐(Alignment)。这就对MM-LLMs框架提出了要求,一方面,各个模态的编码器、生成器所使用的编码,要和大语言模型中所使用的编码(也就是token)进行对齐,另一方面,在人机交互时,需要模型的功能能够对齐用户的意图,而非答非所问。

1.3 多模态大语言模型的简要历史

自从GPT-4和Gemini诞生后,多模态大语言模型吸引众多研究者加入;早期框架还是致力于用LLM辅助特定模态的理解,例如LLaVA、BLIP-2、Video-ChatGPT等;后续陆陆续续有研究关注多模态生成任务,例如MiniGPT-5、SpeechGPT、AudioPaLM等;近期最新成果关注和人类类似的从任意到任意(Any-to-Any)模态的交互,例如AudioGPT、NExt-GPT等。很多公司和机构高也在布局大语言模型以服务于特定的业务需要。

最近多模态大语言模型层出不穷

2. 多模态大语言模型的整体架构

目前的多模态大语言模型采取并联式的框架,以NExtGPT为例,多模态数据送到各自模态的编码器后得到各自模态的编码,这些编码通过各自模态的输入转换器(Input Projection)后得到对齐到大语言模型的文本编码,经过大语言模型处理后的输出,经过限定模态的输出转换器(Output Projection)以及生成器得到多模态的数据。通常的,Input Projection和Output Projection是需要训练的,这些模块占整个框架的参数量的比例很小,通常在2%左右。其他模块多是现成的经过大量数据训练过的,可以固定参数,也可以跟随Projection模块一起微调。

NExtGPT框架

2.1 各个模态的编码器

各个模态的编码器用于将特定模态的数据转换成编码,现在已经有很多成熟的编码器可以解决这些问题,除了文本模态之外:

  • 视觉编码器:例如CLIP ViT、SAM HQ、DiNoV2等;
  • 语音编码器:例如CFormer、Whisper、CLAP等;
  • 3D编码器:例如ULIP2;
  • 联合编码器:各种模态均可处理,例如ImageBind;

2.2 输入转换器

用于模态对齐,将多模态数据编码对齐到文本空间,也是多模态融合的关键,这一模块是需要训练的。通常的转换器可以采取的形式有:

  • 一个简单的线性层;
  • 多层感知机
  • 其他类型,例如Cross-Attention、Q-former等

2.3 大型语言模型底座

这一部分可以独自的进行文本到文本的转换,当有其他模态的数据加入时,大型语言模型会将这些模态的数据也认定为一种文本,输出的模态也是以文本的形式,交给后续解码器处理。常见的用于多模态的大语言模型有ChatGLM、PaLM、Vicuna等。

2.4 输出转换器

用于将大语言模型的输出转换成多模态生成器空间中所使用的输入编码。与输入转换器形态类似。

2.5 多模态生成器

针对不同模态,目前已经有比较成熟的生成解决方案,可以直接拿来使用。例如

  • 图像生成:Stable Diffusion
  • 视频生成:ZeroScope
  • 语音生成:AudioLDM-2

2.6 多模态大语言模型的训练框架

根据训练数据类型的不同,目前的多模态大语言模型通常采用两种训练框架,MMPT和MMIT。前者使用X-文本对形式的输入数据,这里X就是各种模态的输入。例如图像-文本、视频-文本、语音-文本;MMIT使用指令形式的数据,将有监督微调(SFT)和强化学习结合起来。

3. 目前经典的多模态大语言模型的及其评测

3.1 当前经典的大语言模型

分类。作者根据设计思路将多模态大语言模型按照功能和设计进行分类。

多模态大语言模型的分类

各个大语言模型的细节

目前的大语言模型表现出以下趋势:

  1. 从多模态理解到多模态生成,如MiniGPT-4=>MiniGPT-5=>NExtGPT;
  2. 更好的对齐人的意图以及更好的交互,如BLIP-2=>InstructBLIP=>DRESS;
  3. 扩展更多的模态类型;
  4. 使用更高质量的多模态数据;
  5. 更高效的网络结构;

3.2 目前SOTA多模态大语言模型及其在特定领域的性能

作者以视觉-语言任务为例,提供了多模态大语言模型在18个benchmark上的性能:

MM-LLMs在VL任务中的性能

并且有一些发现:

  1. 更高的视觉分辨率可以获得更好的更细节的多模态性能;
  2. 高质量的有监督微调数据集可以促进特定任务中的多模态性能;
  3. 其他:
    1. 在LLM上使用PEFT可以促进编码对齐
    2. 交叉使用图像和文本比使用图像-文本对效果更好
    3. 使用多模态的有监督微调可以改善特定多模态任务中的性能,但是文本-文本单模态任务中性能下降

4. 后续方向

作者提供了后续多模态大模型发展的一些方向:

  1. 更加强大的模型结构,可以引入网页、热力图或图表之类的更多模态来增加模型对更多模态的处理能力,也可以使用更高质量的多模态数据来改善模型性能,或者得到更强大的各个模态的生成模型;
  2. 更多有挑战的Benchmark,例如像MathVista一样衡量视觉任务中的推理能力,或者像MMMU这样的通用智能多学科专家系统;
  3. 轻量化部署,目前已经有一些工作在做,例如Mobile VLM、TinyGPT-V或Mobile-Agent,提高推理效率;
  4. 嵌入式智能:使得MM-LLMs可以应对真实世界并与之交互,例如PaLM-E或者EmbodiedGPT;
  5. 持续学习:根据当前使用环境进行持续参数更新;
  6. 缓解幻觉现象:改善GPT一本正经的胡说八道的问题;

附录:论文的思维导图(大图,请在新标签页打开查阅)

MM-LLMs-2024.3
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录

笔者自知才疏学浅,难免疏漏与谬误,若有高见,请不吝赐教,笔者将不胜感激!

softargmax

2024年3月27日

  • 26
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值