本文是关于论文《MM-LLMs: Recent Advances in MultiModal Large Language Models》的简要介绍。大型语言模型沿着多模态方向发展成为目前越来越受关注的研究领域,这篇论文从方法角度整理了2022年到2024年2月的经典多模态大语言模型,并从技术角度给出了一些前瞻思路。本文主要按照作者提供的框架和案例进行介绍。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
目录
1. 文章简介
1.1 基本信息
题目:MM-LLMs: Recent Advances in MultiModal Large Language Models
论文:https://arxiv.org/pdf/2401.13601.pdf?trk=public_post_comment-text
项目主页:https://mm-llms.github.io/
论文引用:
@article{zhang2024mm,
title={Mm-llms: Recent advances in multimodal large language models},
author={Zhang, Duzhen and Yu, Yahan and Li, Chenxing and Dong, Jiahua and Su, Dan and Chu, Chenhui and Yu, Dong},
journal={arXiv preprint arXiv:2401.13601},
year={2024}
}
1.2 多模态大语言模型简介
GPT诞生以来,一向以强大的自然语言处理能力而著称,人们试着将大型语言模型(Large Language Models,LLM)的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。得益于各个模态的数据都已经有各自的高质量的编码器和生成器,再加上LLM的加持,可以实现很多有趣的任务,多模态的大语言模型(Multi-modal Large Language Models, MM-LLMs)由此而来。
多模态大语言模型的关键是如何将各个模态的模型(例如图像编码器,视频生成器等)与大语言模型结合起来,因为不同的模态是原生的不兼容的。这就涉及到多模态领域中的一个概念:对齐(Alignment)