多模态大型语言模型:26个最佳MM-LLM综述
近年来,AI领域的关注重点逐渐从单一模态的语言模型(LLM)向多模态大型语言模型(MM-LLM)转移。MM-LLM能够处理文本、图像、视频和音频等多种模态,提升了模型在多模态任务上的性能。腾讯AI Lab、京都大学和穆罕默德·本·扎耶德人工智能大学的研究团队发布了一份综述报告,全面梳理了MM-LLM的最新进展,介绍了26个当前最佳的MM-LLM。
研究背景与策略
MM-LLM利用现成的预训练单模态基础模型(特别是强大的LLM),以降低多模态预训练的计算成本并提升效率。其核心挑战在于如何有效地将LLM与其他模态的模型连接起来,以实现协作推理。主要的优化工作流程包括多模态预训练(MM PT)和多模态指令微调(MM IT)。
2023年重要发布
- GPT-4 (Vision) 和 Gemini 展现了出色的多模态理解和生成能力,激发了更多对MM-LLM的研究兴趣。
模型架构
一般MM-LLM架构包含五大组件:
- 模态编码器(Modality Encoder/ME):编码不同模态的输入。
- 输入投影器(Input Projector):将已编码的模态特征与文本特征空间对齐。
- LLM骨干:处理各种模态的表征,执行语义理解、推理和决策。
- 输出投影器:将LLM骨干的输出映射成可被模态生成器理解的特征。
- 模态生成器:生成不同模态的输出。
常用的LLM包括Flan-T5、ChatGLM、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2、Vicuna。
训练流程
- MM PT:通过优化预定义目标对输入和输出投影器进行训练。
- MM IT:使用指令格式的数据集对模型进行微调,增强模型的零样本性能。
当前最佳的26个MM-LLM模型
- Flamingo:处理视觉数据和文本,输出自由形式的文本。
- BLIP-2:高效利用资源,使用轻量级Q-Former连接不同模态。
- LLaVA:使用指令微调技术迁移到多模态领域。
- MiniGPT-4:训练一个线性层对齐视觉编码器与LLM。
- mPLUG-Owl:模块化训练框架,整合视觉上下文。
- X-LLM:扩展到音频等多个模态。
- VideoChat:进行视频理解对话。
- InstructBLIP:指令感知型视觉特征提取。
- PandaGPT:理解并处理6种不同模态的指令。
- PaLIX:使用混合视觉语言目标和单模态目标。
- Video-LLaMA:处理视频的视觉和音频内容。
- Video-ChatGPT:生成有关视频的讨论。
- Shikra:调整用于参考对话任务。
- DLP:预测理想prompt的P-Former。
- BuboGPT:学习共享语义空间,理解多模态内容。
- ChatSpot:精细化调整引用指令,促进交互。
- Qwen-VL:支持多语言,输入多张图像。
- NExT-GPT:端到端通用MM-LLM。
- MiniGPT-5:整合生成式voken和Stable Diffusion。
- LLaVA-1.5:基于LLaVA框架进行修改。
- MiniGPT-v2:统一接口处理多种视觉语言任务。
- CogVLM:通过视觉专家模块搭建模态桥梁。
- DRESS:使用自然语言反馈提升对齐效果。
- X-InstructBLIP:跨模态框架处理多样化任务。
- CoDi-2:处理多模态融合指令和多轮对话。
- VILA:在视觉任务和文本推理上表现优异。
未来发展方向
- 更强大的模型:扩展模态、提升多模态生成能力。
- 更高难度的基准。
- 移动/轻量级部署。
- 具身智能。
- 持续指令微调。
这些研究方向有望进一步推动MM-LLM的发展,提升其在实际应用中的表现。