多模态大模型MiniGPT4论文《Minigpt-4: Enhancing vision-language understanding with advanced large languag》简要介绍

AI菜鸟

已于 2024-04-03 19:21:57 修改

阅读量2.7k

点赞数 46

分类专栏：大语言模型文献调研文章标签：语言模型自然语言处理人工智能深度学习

于 2024-04-03 18:50:59 首次发布

本文链接：https://blog.csdn.net/qq_37261357/article/details/137354958

版权

本文是关于多模态大模型论文《Minigpt-4: Enhancing vision-language understanding with advanced large language models》的简要介绍，MiniGPT4在Github上有24k+start，是非常流行的多模态大语言模型框架。

有关本专栏的更多内容，请参考大语言模型文献调研专栏目录

1. 论文基本信息

1.1 资源

项目连接：https://minigpt-4.github.io/

文章链接：https://arxiv.org/pdf/2304.10592.pdf

代码链接：https://github.com/Vision-CAIR/MiniGPT-4

文章引用：

@article{zhu2023minigpt,
  title={Minigpt-4: Enhancing vision-language understanding with advanced large language models},
  author={Zhu, Deyao and Chen, Jun and Shen, Xiaoqian and Li, Xiang and Elhoseiny, Mohamed},
  journal={arXiv preprint arXiv:2304.10592},
  year={2023}
}

1.2 概要介绍和Motivation

最近发布的GPT-4表现出非凡的多模态能力，比如直接从手写文本生成网站和识别图像中的幽默元素，这些能力在先前的工作中很少见，但是GPT-4背后的技术细节仍未公开。作者认为GPT-4增强的多模态生成能力源于利用复杂的大型语言模型（LLM）。为了研究这一现象，我们提出了MiniGPT-4，通过一个映射层（Projection ）将一个冻结的视觉编码器与一个冻结的先进LLM Vicuna进行对齐。

这项工作首次揭示，正确地将视觉特征与先进的大型语言模型对齐可以具备GPT-4展示的许多高级的多模态能力，甚至可以根据给定图像撰写故事和诗歌，以及根据食物照片教用户如何烹饪等。作者发现在图像短标题配对上训练的模型可能会产生并不自然的语言输出（重复和碎片化）。因此作者提出一个详细的图像描述数据集来微调模型，从而提高模型的生成可靠性和整体可用性。

MiniGPT-4的结构

2. 相关工作

2.1 大语言模型

近年来，大型语言模型（LLM）取得了巨大成功，这要归功于训练数据规模的扩大和参数数量的增加。

BERT、GPT-2和T5等早期模型为大型语言模型的发展奠定了基础。
随后推出的拥有1750亿参数的GPT-3在多项语言测试中取得显著突破，引发了其他大型语言模型的创建，如MegatronTuring NLG、Chinchilla和PaLM。
Wei等人发现大型模型具有独特的涌现能力（emergency ability），强调了规模化对大型语言模型发展的重要性。
InstructGPT和ChatGPT通过将预训练的GPT-3与人类意图、指令和反馈对齐，实现了与人类进行对话互动，并回答各种复杂问题。
最近，一些开源模型如Alpaca和Vicuna基于LLaMA开发，表现出良好性能。