论文链接:24.02.MM-LLMs: Recent Advances in MultiModal Large Language | 国内-链接
实时网站:https://mm-llms.github.io
参考说明1-readpaper:https://mp.weixin.qq.com/s/ESUVe1aTYFLVJ10S9c1dBg
一、什么是MM-LLM ?
多模态大语言模型:Multimodal Large Language Models
MM-LLM = 预训练单模态模型( 含LLMs) + 微调对齐所有模态 + 输出调整
MM-LLMs 利用现成的预训练单模态基础
模型,
特别是强大的大型语言模型(LLMs), 作为认知核心,赋予各种多模态任务能力。
LLMs 提供了稳健的语言生成、zero-shot 迁移能力和上下文学习(ICL)等可取特性
在这一领域中,主要关注点是通过多模态预训练
(MM PT, Pre-Training)+ 多模态指令调整
(MM IT)pipeline 来优化模态之间的对齐,以及与人类意图的对齐
(aligning with human intent)。
1.1 发展历程
-
最初的研究
图像-文本
理解(例如 BLIP-2,LLaVA,MiniGPT-4 和 OpenFlamingo 等工作);
视频-文本
理解(例如 VideoChat,Video-ChatGPT 和 LLaMA-VID 等工作);
音频-文本
理解(例如 Qwen-Audio)等任务。 -
随后,MM-LLMs 的能力扩展到支持特定模态生成。
这包括具有图像-文本输出的任务,例如 GILL,Kosmos-2,Emu 和 MiniGPT-5 等;
以及具有语音/音频-文本输出的任务,例如 SpeechGPT 和 AudioPaLM 等工作 -
最近的研究努力集中在模仿
类人任意-任意模态
转换
将 LLMs 与外部工具结合起来,实现,现接近任意-任意的多模态理解和生成,
例如 Visual-ChatGPT,HuggingGPT 和 AudioGPT 等
二、模型框架
我们将一般模型架构分解为五个组件
&#x