多模态大模型MiniGPT4论文《Minigpt-4: Enhancing vision-language understanding with advanced large languag》简要介绍

本文是关于多模态大模型论文《Minigpt-4: Enhancing vision-language understanding with advanced large language models》的简要介绍,MiniGPT4在Github上有24k+start,是非常流行的多模态大语言模型框架。

有关本专栏的更多内容,请参考大语言模型文献调研专栏目录

1. 论文基本信息

1.1 资源

项目连接:https://minigpt-4.github.io/

文章链接:https://arxiv.org/pdf/2304.10592.pdf

代码链接:https://github.com/Vision-CAIR/MiniGPT-4

文章引用:

@article{zhu2023minigpt,
  title={Minigpt-4: Enhancing vision-language understanding with advanced large language models},
  author={Zhu, Deyao and Chen, Jun and Shen, Xiaoqian and Li, Xiang and Elhoseiny, Mohamed},
  journal={arXiv preprint arXiv:2304.10592},
  year={2023}
}

1.2 概要介绍和Motivation

最近发布的GPT-4表现出非凡的多模态能力,比如直接从手写文本生成网站和识别图像中的幽默元素,这些能力在先前的工作中很少见,但是GPT-4背后的技术细节仍未公开。作者认为GPT-4增强的多模态生成能力源于利用复杂的大型语言模型(LLM)。为了研究这一现象,我们提出了MiniGPT-4,通过一个映射层(Projection )将一个冻结的视觉编码器与一个冻结的先进LLM Vicuna进行对齐。

这项工作首次揭示,正确地将视觉特征与先进的大型语言模型对齐可以具备GPT-4展示的许多高级的多模态能力,甚至可以根据给定图像撰写故事和诗歌,以及根据食物照片教用户如何烹饪等。作者发现在图像短标题配对上训练的模型可能会产生并不自然的语言输出(重复和碎片化)。因此作者提出一个详细的图像描述数据集来微调模型,从而提高模型的生成可靠性和整体可用性。

MiniGPT-4的结构

2. 相关工作

2.1 大语言模型

近年来,大型语言模型(LLM)取得了巨大成功,这要归功于训练数据规模的扩大和参数数量的增加。

  • BERT、GPT-2和T5等早期模型为大型语言模型的发展奠定了基础。
  • 随后推出的拥有1750亿参数的GPT-3在多项语言测试中取得显著突破,引发了其他大型语言模型的创建,如MegatronTuring NLG、Chinchilla和PaLM。
  • Wei等人发现大型模型具有独特的涌现能力(emergency ability),强调了规模化对大型语言模型发展的重要性。
  • InstructGPT和ChatGPT通过将预训练的GPT-3与人类意图、指令和反馈对齐,实现了与人类进行对话互动,并回答各种复杂问题。
  • 最近,一些开源模型如Alpaca和Vicuna基于LLaMA开发,表现出良好性能。

2.2 使用大语言模型解决视觉-语言任务

利用预训练的大型语言模型(LLM)进行视觉-语言任务已经成为近年来的一个明显趋势。各项研究强调了在视觉-语言任务中使用自回归语言模型作为解码器的优势。这种方法利用跨模态转移,促进了语言和多模态领域之间的知识共享。

  • 开拓性工作如VisualGPT和Frozen证明了采用预训练语言模型作为视觉-语言模型解码器的优点。
  • 进一步的进展包括开发了Flamingo,该模型通过门控交叉注意力将预训练的视觉编码器和语言模型对齐,展示了令人印象深
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值