MM-LLMs: Recent Advances in MultiModal Large Language Models MM-LLMs: 多模态大语言模型的新进展(二)

——腾讯人工智能实验室、日本京都大学、阿联酋穆罕默德·本·扎耶德人工智能大学

2024.2发布在arxiv 2024.8 发表在《Findings of the Association for Computational Linguistics: ACL 2024》上,属于中科院2区


太长不看版-AI总结

  1. 相关调查:在LLMs出现之前,已有多次对传统多模态预训练(MM PT)的调查。这些模型由于端到端训练需要大量计算资源,且在指令跟随、上下文学习(ICL)、思维链(CoT)和交互能力等方面存在不足。

  2. MM-LLMs研究:近年来,关于MM-LLMs的研究开始出现,涵盖了视觉语言(VL)理解模型、视觉信息检索和模态对齐方法等。

  3. 主要区别:与之前的研究相比,本文全面覆盖了几乎所有的MM-LLMs,包括理解模型和生成模型,不仅限于VL模态,还包括音频和3D点云等。介绍了包含任意模态转换的通用模型架构,并总结了现有MM-LLMs的发展趋势和训练方法。

  4. 开源网站:为MM-LLMs研究人员建立了一个开源网站,支持众包更新,旨在促进领域合作。

  5. 模态编码器:对主流的模态编码器进行了简要介绍,包括视觉模态和音频模态。

  6. PEFT方法:回顾了几种具有代表性的参数有效微调(PEFT)方法,如前缀调优、适配器、LoRA和LayerNorm微调。

  7. LLM Backbones:列举了现有MM-LLMs研究中具有代表性的LLM Backbones。

  8. SOTA MM-LLMs:简要介绍了一些具有代表性的MM-LLMs的核心贡献。

  9. VL Benchmarks:提供了18个视觉语言(VL)基准的列表,用于评估MM-LLMs的性能。

  10. Training Dataset:提供了MM PT和MM IT数据集的统计数据。


相关调查

在LLMs出现之前,已经对传统的MM PT进行了多次调查。由于使用大规模模型和数据集进行端到端的训练,这些模型在PT阶段需要大量的计算成本。由于没有纳入LLMs,这些模型在指令跟随、ICL、CoT和交互能力等方面存在不足。此外,培训管道仅包括PT阶段,而不包括IT阶段。

近年来,出现了一些关于MM - LLMs的研究。Yin等人和Wu等人专门研究了早期的VL理解模型。Huang等人侧重于视觉信息技术,而Song等人侧重于模态对齐方法。最后,Cui等人对MM - LLMs在自动驾驶领域的应用进行了全面的综述。

与他们的作品相比,主要区别概括如下:

  • 在过去的一年中,我们已经全面地覆盖了几乎所有的MM - LLMs,总共约120个或更多,不仅包括理解模型,也包括生成模型。我们的覆盖范围超越了VL模态,涵盖了音频和3D点云等多种模态;

  • 为了使读者对MM - LLMs有一个全面的了解,我们介绍了一个包含任意模态转换的通用模型架构,对每个组件的功能角色和实现选择进行了详细的概述;

  • 我们总结了现有MM - LLMs的发展趋势,并提供了一些可以提高有效性的训练处方;

  • 我们为MM - LLMs研究人员建立了一个开源网站( MM-LLMs) ),支持众包更新,旨在促进MM - LLMs领域的合作。我们预计,这项调查将为MMLLMs领域的未来研究提供参考。

模态编码器

### 跨域学习的多模态大模型 #### 多模态大语言模型的发展趋势 近年来,随着人工智能领域内数据量的增长和技术的进步,多模态大型语言模型(MM-LLMs)得到了快速发展。这些模型能够处理来自不同源的数据并融合多种类型的输入,如文本、图像和音频等[^1]。 #### 技术挑战与解决方案 构建有效的跨域学习架构面临诸多挑战,其中包括但不限于如何有效地表示异构信息以及设计可以适应新任务而无需重新训练整个系统的机制。针对这些问题的研究提出了各种方法论上的改进措施,在保持原有性能的同时扩展到新的应用场景中去[^2]。 #### 实现案例分析 具体来说,《Attentive Multiview Text Representation for Differential Diagnosis》一文中介绍了一种用于差异诊断的方法,该方法通过引入注意力机制来增强对于不同类型视图间关系的理解能力;而在《MM-LLms:Recent Advances in MultiModal Large Language Models》则总结了一些最新的进展成果,并讨论了未来可能发展的方向。 ```python # Python代码示例:加载预训练好的多模态模型(假设使用transformers库) from transformers import AutoModel, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("model_name") model = AutoModel.from_pretrained("model_name") text_input = "example sentence" image_path = "./path_to_image.jpg" inputs = tokenizer(text_input, return_tensors="pt") outputs = model(**inputs) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值