MM-LLMs: Recent Advances in MultiModal Large Language Models MM-LLMs: 多模态大语言模型的新进展（二）

最新推荐文章于 2025-05-03 09:07:35 发布

Gierig.

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量946

点赞数 9

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_55923034/article/details/144067598

版权

——腾讯人工智能实验室、日本京都大学、阿联酋穆罕默德·本·扎耶德人工智能大学

2024.2发布在arxiv 2024.8 发表在《Findings of the Association for Computational Linguistics: ACL 2024》上，属于中科院2区

太长不看版-AI总结

相关调查：在LLMs出现之前，已有多次对传统多模态预训练（MM PT）的调查。这些模型由于端到端训练需要大量计算资源，且在指令跟随、上下文学习（ICL）、思维链（CoT）和交互能力等方面存在不足。
MM-LLMs研究：近年来，关于MM-LLMs的研究开始出现，涵盖了视觉语言（VL）理解模型、视觉信息检索和模态对齐方法等。
主要区别：与之前的研究相比，本文全面覆盖了几乎所有的MM-LLMs，包括理解模型和生成模型，不仅限于VL模态，还包括音频和3D点云等。介绍了包含任意模态转换的通用模型架构，并总结了现有MM-LLMs的发展趋势和训练方法。
开源网站：为MM-LLMs研究人员建立了一个开源网站，支持众包更新，旨在促进领域合作。
模态编码器：对主流的模态编码器进行了简要介绍，包括视觉模态和音频模态。
PEFT方法：回顾了几种具有代表性的参数有效微调（PEFT）方法，如前缀调优、适配器、LoRA和LayerNorm微调。
LLM Backbones：列举了现有MM-LLMs研究中具有代表性的LLM Backbones。
SOTA MM-LLMs：简要介绍了一些具有代表性的MM-LLMs的核心贡献。
VL Benchmarks：提供了18个视觉语言（VL）基准的列表，用于评估MM-LLMs的性能。
Training Dataset：提供了MM PT和MM IT数据集的统计数据。