多模态大语言模型调研《MM-LLMs: Recent Advances in MultiModal Large Language Models》简要介绍

本文是关于论文《MM-LLMs: Recent Advances in MultiModal Large Language Models》的简要介绍。大型语言模型沿着多模态方向发展成为目前越来越受关注的研究领域,这篇论文从方法角度整理了2022年到2024年2月的经典多模态大语言模型,并从技术角度给出了一些前瞻思路。本文主要按照作者提供的框架和案例进行介绍。

有关本专栏的更多内容,请参考大语言模型文献调研专栏目录

1. 文章简介

1.1 基本信息

题目:MM-LLMs: Recent Advances in MultiModal Large Language Models

论文:https://arxiv.org/pdf/2401.13601.pdf?trk=public_post_comment-text

项目主页:https://mm-llms.github.io/

论文引用:

@article{zhang2024mm,
  title={Mm-llms: Recent advances in multimodal large language models},
  author={Zhang, Duzhen and Yu, Yahan and Li, Chenxing and Dong, Jiahua and Su, Dan and Chu, Chenhui and Yu, Dong},
  journal={arXiv preprint arXiv:2401.13601},
  year={2024}
}

1.2 多模态大语言模型简介

GPT诞生以来,一向以强大的自然语言处理能力而著称,人们试着将大型语言模型(Large Language Models,LLM)的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。得益于各个模态的数据都已经有各自的高质量的编码器和生成器,再加上LLM的加持,可以实现很多有趣的任务,多模态的大语言模型(Multi-modal Large Language Models, MM-LLMs)由此而来。

多模态大语言模型的关键是如何将各个模态的模型(例如图像编码器,视频生成器等)与大语言模型结合起来,因为不同的模态是原生的不兼容的。这就涉及到多模态领域中的一个概念:对齐(Alignment)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值