多模态大语言模型调研《MM-LLMs: Recent Advances in MultiModal Large Language Models》简要介绍

AI菜鸟

已于 2024-04-03 15:44:09 修改

阅读量1.6k

点赞数 26

分类专栏：大语言模型文献调研文章标签：语言模型人工智能自然语言处理

于 2024-04-03 15:07:09 首次发布

本文链接：https://blog.csdn.net/qq_37261357/article/details/137346442

版权

本文是关于论文《MM-LLMs: Recent Advances in MultiModal Large Language Models》的简要介绍。大型语言模型沿着多模态方向发展成为目前越来越受关注的研究领域，这篇论文从方法角度整理了2022年到2024年2月的经典多模态大语言模型，并从技术角度给出了一些前瞻思路。本文主要按照作者提供的框架和案例进行介绍。

有关本专栏的更多内容，请参考大语言模型文献调研专栏目录

1. 文章简介
2. 多模态大语言模型的整体架构
3. 目前经典的多模态大语言模型的及其评测
- 3.1 当前经典的大语言模型
- 3.2 目前SOTA多模态大语言模型及其在特定领域的性能
4. 后续方向
附录：论文的思维导图（大图，请在新标签页打开查阅）

1. 文章简介

1.1 基本信息

题目：MM-LLMs: Recent Advances in MultiModal Large Language Models

论文：https://arxiv.org/pdf/2401.13601.pdf?trk=public_post_comment-text

项目主页：https://mm-llms.github.io/

论文引用：

@article{zhang2024mm,
  title={Mm-llms: Recent advances in multimodal large language models},
  author={Zhang, Duzhen and Yu, Yahan and Li, Chenxing and Dong, Jiahua and Su, Dan and Chu, Chenhui and Yu, Dong},
  journal={arXiv preprint arXiv:2401.13601},
  year={2024}
}

1.2 多模态大语言模型简介

GPT诞生以来，一向以强大的自然语言处理能力而著称，人们试着将大型语言模型（Large Language Models，LLM）的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。得益于各个模态的数据都已经有各自的高质量的编码器和生成器，再加上LLM的加持，可以实现很多有趣的任务，多模态的大语言模型（Multi-modal Large Language Models， MM-LLMs）由此而来。

多模态大语言模型的关键是如何将各个模态的模型（例如图像编码器，视频生成器等）与大语言模型结合起来，因为不同的模态是原生的不兼容的。这就涉及到多模态领域中的一个概念：对齐（Alignment）