多模态大语言模型的新进展
——腾讯人工智能实验室、日本京都大学、阿联酋穆罕默德·本·扎耶德人工智能大学
2024.2发布在arxiv 2024.8 发表在《Findings of the Association for Computational Linguistics: ACL 2024》上,属于中科院2区
太长不看版-AI总结
这篇文章提供了对多模态大语言模型(MM-LLMs)的全面综述,包括它们的发展历程、模型架构、训练流程、性能基准、未来发展方向以及社会影响和局限性。
-
发展历程:文章概述了MM-LLMs如何通过结合现有的大型语言模型(LLMs)和多模态输入/输出,增强了模型的推理和决策能力。
-
模型架构:详细介绍了MM-LLMs的五个主要组件:模态编码器、输入投影仪、LLM Backbone、输出投影仪和模态生成器,以及它们如何协同工作。
-
训练流程:描述了MM-LLMs的训练过程,包括多模态预训练(MM PT)和多模态指令调优(MM IT),以及如何通过这些阶段提高模型性能。
-
性能基准:通过比较不同MM-LLMs在多个视觉语言(VL)基准上的表现,展示了它们的能力。
-
未来发展方向:探讨了MM-LLMs的潜在改进领域,包括扩展模态、多样化LLMs、提高MM IT数据集质量、增强MM生成能力等。
-
社会影响:讨论了MM-LLMs如何通过改善无障碍性、教育和媒体内容创造等方面对社会产生积极影响,同时也指出了隐私、偏见和就业位移等潜在风险。
-
局限性:文章承认了在综述中可能存在的局限性,如未能涵盖所有最新进展,并提出了通过建立网站来实时跟踪和更新领域进展的解决方案。
文章的目的是为研究人员提供MM-LLMs领域的深入见解,并促进该领域的持续发展。同时,它也强调了在部署MM-LLMs时需要考虑的伦理和社会问题。
摘要
在过去的一年中,多模态大语言模型( MM-LLMs )取得了长足的发展,通过经济有效的培训策略,增加了现成的LLMs,以支持MM的输入或输出。由此产生的模型不仅保留了LLM固有的推理和决策能力,还赋予了MM任务多样化的能力。在本文中,我们提供了一个全面的综述,旨在促进MM - LLMs的进一步研究。首先,我们概述了模型架构和训练管道的一般设计公式。随后,我们介绍了一个包含126种MM - LLMs的分类学,每种MM - LLMs都有其特定的剂型。此外,我们回顾了选定的MM - LLMs在主流基准上的性能,并总结了增强MM - LLMs效能的关键训练配方。最后,我们探索了MM - LLMs的前景方向,同时维护了一个实时跟踪网站1,以了解该领域的最新进展。我们希望这项调查有助于MM - LLMs领域的持续发展。
1 导言
近年来,多模态( MultiModal,MM )预训练研究取得了重大进展,持续推动了下游任务( Li et al . , 2020 ; Akbari et al . , 2021 ; Fang et al . , 2021 ; Yan et al . , 2021 ; Li et al . , 2021 ;雷德福et al . , 2021 ; Li et al . , 2022 ;策勒斯et al . , 2022 ; Zeng et al . , 2022b ; Yang et al . , 2022 ; Wang et al . , 2022a , b)的性能边界。然而,随着模型和数据集规模的不断扩大,传统的MM模型会产生大量的计算成本,特别是在训练时从无到有。认识到MM研究是在各种模态的交叉点上运作的,一个合乎逻辑的方法是利用容易获得的预训练的单峰基础模型,特别强调强大的大型语言模型( LLMs ) (开放AI , 2022)。该策略旨在减少计算开销,增强MM预训练的有效性,从而产生了一个新的领域:MM - LLMs。
MM - LLMs利用LLMs作为认知动力,为各种MM任务赋能。LLMs提供了良好的特性,如健壮的语言生成、零样本迁移能力和上下文学习( ICL )。同时,其他模态的基础模型提供了高质量的表示。考虑到不同模态的基础模型都是单独预训练的,MM - LLMs面临的核心挑战是如何有效地将LLMs与其他模态的模型联系起来进行协同推理。该领域的主要关注点为通过一个MM预训练( PT ) + MM指令-调优( IT )管道,细化模态之间的对齐,并与人类意图对齐。
随着GPT - 4 ( Vision ) (开放AI , 2023)和Gemini ( Team et al , 2023)的问世,展现了令人印象深刻的MM理解和生成能力,引发了对MM - LLMs的研究热潮。最初的研究主要集中在MM内容理解和文本生成,包括图像-文本理解等任务,例如BLIP - 2 ( Li et al . , 2023e),LLaVA ( Liu et al , 2023e),MiniGPT4 ( Zhu et al , 2023a)和OpenFlamingo ( Awadalla et al , 2023)等项目;视频-文本理解,如视频对话( Li et al , 2023f),Video- ChatGPT ( Maaz et al , 2023)和LLaMA - VID ( Li et al , 2023j);以及“声-文并茂”的理解,如在QwenAudio ( Chu et al , 2023b)等项目中所见。后来,MM - LLMs的能力得到了扩展,可以支持特定的模态输出。其中包括具有图文输出的任务,如GILL ( Koh et al , 2023a)、Kosmos - 2 ( Peng et al , 2023)、Emu ( Sun et al , 2024)和MiniGPT - 5 ( Zheng et al , 2023b);以及Speech /“声-文并茂”输出,以Speech GPT ( Zhang et al , 2023a)、Audio Param (鲁宾斯坦等, 2023)等项目为例。最近的研究工作集中于模仿人类的任意模态转换,为通用型人工智能的道路提供了光明。一些工作旨在将LLMs与外部工具融合,以达到接近任意MM的理解和生成,如Visual ChatGPT ( Wu et al , 2023a)、HuggPT ( Shen et al . , 2023)和AudioGPT ( Huang et al , 2023b)。相反,为了减轻级联系统中的传播误差,NEx T-GPT ( Wu et al , 2023d),Co Di-2 (