本文是LLM系列文章,针对《MM-LLMs: Recent Advances in MultiModal Large Language Models》的翻译。
摘要
在过去的一年里,多模态大型语言模型(MM-LLM)取得了长足的进步,通过具有成本效益的训练策略,增强了现成的LLM,以支持MM的输入或输出。由此产生的模型不仅保留了LLM固有的推理和决策能力,而且还赋予了各种MM任务权力。在本文中,我们提供了一个全面的调查,旨在促进MM LLM的进一步研究。最初,我们概述了模型架构和训练管道的一般设计公式。随后,我们介绍了一个包含122个MM LLM的分类法,每个LLM都有其特定的配方。此外,我们回顾了选定的MM LLM在主流基准上的表现,并总结了提高MM LLM效力的关键训练配方。最后,我们探索了MM LLM的有希望的方向,同时维护了一个实时跟踪网站以了解该领域的最新发展。我们希望这项调查有助于MM LLM领域的持续发展。
1 引言
2 模型架构
3 训练管道
4 SOTA MM-LLMs
5 基线和性能
6 未来方向
7 结论
在本文中,我们对MM LLM进行了全面的调查,重点介绍了最新进展。最初,我们将模型体系结构分为五个组成部分,提供了一般设计公式和训练管道的详细概述。随后,我们介绍了各种SOTA MM LLM,每种LLM都