26个最佳MM-LLM

Ai君臣

于 2024-07-24 21:03:37 发布

阅读量261

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/liuchenbaidu/article/details/140673239

版权

多模态大型语言模型：26个最佳MM-LLM综述

近年来，AI领域的关注重点逐渐从单一模态的语言模型（LLM）向多模态大型语言模型（MM-LLM）转移。MM-LLM能够处理文本、图像、视频和音频等多种模态，提升了模型在多模态任务上的性能。腾讯AI Lab、京都大学和穆罕默德·本·扎耶德人工智能大学的研究团队发布了一份综述报告，全面梳理了MM-LLM的最新进展，介绍了26个当前最佳的MM-LLM。

研究背景与策略

MM-LLM利用现成的预训练单模态基础模型（特别是强大的LLM），以降低多模态预训练的计算成本并提升效率。其核心挑战在于如何有效地将LLM与其他模态的模型连接起来，以实现协作推理。主要的优化工作流程包括多模态预训练（MM PT）和多模态指令微调（MM IT）。

2023年重要发布

GPT-4 (Vision) 和 Gemini 展现了出色的多模态理解和生成能力，激发了更多对MM-LLM的研究兴趣。

模型架构

一般MM-LLM架构包含五大组件：

模态编码器（Modality Encoder/ME）：编码不同模态的输入。
输入投影器（Input Projector）：将已编码的模态特征与文本特征空间对齐。
LLM骨干：处理各种模态的表征，执行语义理解、推理和决策。
输出投影器：将LLM骨干的输出映射成可被模态生成器理解的特征。
模态生成器：生成不同模态的输出。

常用的LLM包括Flan-T5、ChatGLM、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2、Vicuna。

训练流程

MM PT：通过优化预定义目标对输入和输出投影器进行训练。
MM IT：使用指令格式的数据集对模型进行微调，增强模型的零样本性能。

当前最佳的26个MM-LLM模型

Flamingo：处理视觉数据和文本，输出自由形式的文本。
BLIP-2：高效利用资源，使用轻量级Q-Former连接不同模态。
LLaVA：使用指令微调技术迁移到多模态领域。
MiniGPT-4：训练一个线性层对齐视觉编码器与LLM。
mPLUG-Owl：模块化训练框架，整合视觉上下文。
X-LLM：扩展到音频等多个模态。
VideoChat：进行视频理解对话。
InstructBLIP：指令感知型视觉特征提取。
PandaGPT：理解并处理6种不同模态的指令。
PaLIX：使用混合视觉语言目标和单模态目标。
Video-LLaMA：处理视频的视觉和音频内容。
Video-ChatGPT：生成有关视频的讨论。
Shikra：调整用于参考对话任务。
DLP：预测理想prompt的P-Former。
BuboGPT：学习共享语义空间，理解多模态内容。
ChatSpot：精细化调整引用指令，促进交互。
Qwen-VL：支持多语言，输入多张图像。
NExT-GPT：端到端通用MM-LLM。
MiniGPT-5：整合生成式voken和Stable Diffusion。
LLaVA-1.5：基于LLaVA框架进行修改。
MiniGPT-v2：统一接口处理多种视觉语言任务。
CogVLM：通过视觉专家模块搭建模态桥梁。
DRESS：使用自然语言反馈提升对齐效果。
X-InstructBLIP：跨模态框架处理多样化任务。
CoDi-2：处理多模态融合指令和多轮对话。
VILA：在视觉任务和文本推理上表现优异。

未来发展方向

更强大的模型：扩展模态、提升多模态生成能力。
更高难度的基准。
移动/轻量级部署。
具身智能。
持续指令微调。

这些研究方向有望进一步推动MM-LLM的发展，提升其在实际应用中的表现。

Ai君臣

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
26个最佳MM-LLM

MM-LLM能够处理文本、图像、视频和音频等多种模态，提升了模型在多模态任务上的性能。腾讯AI Lab、京都大学和穆罕默德·本·扎耶德人工智能大学的研究团队发布了一份综述报告，全面梳理了MM-LLM的最新进展，介绍了26个当前最佳的MM-LLM。MM-LLM利用现成的预训练单模态基础模型（特别是强大的LLM），以降低多模态预训练的计算成本并提升效率。常用的LLM包括Flan-T5、ChatGLM、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2、Vicuna。
复制链接

扫一扫