——腾讯人工智能实验室、日本京都大学、阿联酋穆罕默德·本·扎耶德人工智能大学
2024.2发布在arxiv 2024.8 发表在《Findings of the Association for Computational Linguistics: ACL 2024》上,属于中科院2区
太长不看版-AI总结
-
相关调查:在LLMs出现之前,已有多次对传统多模态预训练(MM PT)的调查。这些模型由于端到端训练需要大量计算资源,且在指令跟随、上下文学习(ICL)、思维链(CoT)和交互能力等方面存在不足。
-
MM-LLMs研究:近年来,关于MM-LLMs的研究开始出现,涵盖了视觉语言(VL)理解模型、视觉信息检索和模态对齐方法等。
-
主要区别:与之前的研究相比,本文全面覆盖了几乎所有的MM-LLMs,包括理解模型和生成模型,不仅限于VL模态,还包括音频和3D点云等。介绍了包含任意模态转换的通用模型架构,并总结了现有MM-LLMs的发展趋势和训练方法。
-
开源网站:为MM-LLMs研究人员建立了一个开源网站,支持众包更新,旨在促进领域合作。
-
模态编码器:对主流的模态编码器进行了简要介绍,包括视觉模态和音频模态。
-
PEFT方法:回顾了几种具有代表性的参数有效微调(PEFT)方法,如前缀调优、适配器、LoRA和LayerNorm微调。
-
LLM Backbones:列举了现有MM-LLMs研究中具有代表性的LLM Backbones。
-
SOTA MM-LLMs:简要介绍了一些具有代表性的MM-LLMs的核心贡献。
-
VL Benchmarks:提供了18个视觉语言(VL)基准的列表,用于评估MM-LLMs的性能。
-
Training Dataset:提供了MM PT和MM IT数据集的统计数据。
相关调查
在LLMs出现之前,已经对传统的MM PT进行了多次调查。由于使用大规模模型和数据集进行端到端的训练,这些模型在PT阶段需要大量的计算成本。由于没有纳入LLMs,这些模型在指令跟随、ICL、CoT和交互能力等方面存在不足。此外,培训管道仅包括PT阶段,而不包括IT阶段。
近年来,出现了一些关于MM - LLMs的研究。Yin等人和Wu等人专门研究了早期的VL理解模型。Huang等人侧重于视觉信息技术,而Song等人侧重于模态对齐方法。最后,Cui等人对MM - LLMs在自动驾驶领域的应用进行了全面的综述。
与他们的作品相比,主要区别概括如下:
-
在过去的一年中,我们已经全面地覆盖了几乎所有的MM - LLMs,总共约120个或更多,不仅包括理解模型,也包括生成模型。我们的覆盖范围超越了VL模态,涵盖了音频和3D点云等多种模态;
-
为了使读者对MM - LLMs有一个全面的了解,我们介绍了一个包含任意模态转换的通用模型架构,对每个组件的功能角色和实现选择进行了详细的概述;
-
我们总结了现有MM - LLMs的发展趋势,并提供了一些可以提高有效性的训练处方;
-
我们为MM - LLMs研究人员建立了一个开源网站( MM-LLMs) ),支持众包更新,旨在促进MM - LLMs领域的合作。我们预计,这项调查将为MMLLMs领域的未来研究提供参考。