26个最佳MM-LLM

多模态大型语言模型:26个最佳MM-LLM综述

近年来,AI领域的关注重点逐渐从单一模态的语言模型(LLM)向多模态大型语言模型(MM-LLM)转移。MM-LLM能够处理文本、图像、视频和音频等多种模态,提升了模型在多模态任务上的性能。腾讯AI Lab、京都大学和穆罕默德·本·扎耶德人工智能大学的研究团队发布了一份综述报告,全面梳理了MM-LLM的最新进展,介绍了26个当前最佳的MM-LLM。

研究背景与策略

MM-LLM利用现成的预训练单模态基础模型(特别是强大的LLM),以降低多模态预训练的计算成本并提升效率。其核心挑战在于如何有效地将LLM与其他模态的模型连接起来,以实现协作推理。主要的优化工作流程包括多模态预训练(MM PT)和多模态指令微调(MM IT)。

2023年重要发布
  • GPT-4 (Vision)Gemini 展现了出色的多模态理解和生成能力,激发了更多对MM-LLM的研究兴趣。
模型架构

一般MM-LLM架构包含五大组件:

  1. 模态编码器(Modality Encoder/ME):编码不同模态的输入。
  2. 输入投影器(Input Projector):将已编码的模态特征与文本特征空间对齐。
  3. LLM骨干:处理各种模态的表征,执行语义理解、推理和决策。
  4. 输出投影器:将LLM骨干的输出映射成可被模态生成器理解的特征。
  5. 模态生成器:生成不同模态的输出。

常用的LLM包括Flan-T5、ChatGLM、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2、Vicuna。

训练流程
  • MM PT:通过优化预定义目标对输入和输出投影器进行训练。
  • MM IT:使用指令格式的数据集对模型进行微调,增强模型的零样本性能。
当前最佳的26个MM-LLM模型
  1. Flamingo:处理视觉数据和文本,输出自由形式的文本。
  2. BLIP-2:高效利用资源,使用轻量级Q-Former连接不同模态。
  3. LLaVA:使用指令微调技术迁移到多模态领域。
  4. MiniGPT-4:训练一个线性层对齐视觉编码器与LLM。
  5. mPLUG-Owl:模块化训练框架,整合视觉上下文。
  6. X-LLM:扩展到音频等多个模态。
  7. VideoChat:进行视频理解对话。
  8. InstructBLIP:指令感知型视觉特征提取。
  9. PandaGPT:理解并处理6种不同模态的指令。
  10. PaLIX:使用混合视觉语言目标和单模态目标。
  11. Video-LLaMA:处理视频的视觉和音频内容。
  12. Video-ChatGPT:生成有关视频的讨论。
  13. Shikra:调整用于参考对话任务。
  14. DLP:预测理想prompt的P-Former。
  15. BuboGPT:学习共享语义空间,理解多模态内容。
  16. ChatSpot:精细化调整引用指令,促进交互。
  17. Qwen-VL:支持多语言,输入多张图像。
  18. NExT-GPT:端到端通用MM-LLM。
  19. MiniGPT-5:整合生成式voken和Stable Diffusion。
  20. LLaVA-1.5:基于LLaVA框架进行修改。
  21. MiniGPT-v2:统一接口处理多种视觉语言任务。
  22. CogVLM:通过视觉专家模块搭建模态桥梁。
  23. DRESS:使用自然语言反馈提升对齐效果。
  24. X-InstructBLIP:跨模态框架处理多样化任务。
  25. CoDi-2:处理多模态融合指令和多轮对话。
  26. VILA:在视觉任务和文本推理上表现优异。
未来发展方向
  1. 更强大的模型:扩展模态、提升多模态生成能力。
  2. 更高难度的基准
  3. 移动/轻量级部署
  4. 具身智能
  5. 持续指令微调

这些研究方向有望进一步推动MM-LLM的发展,提升其在实际应用中的表现。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai君臣

学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值