MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE MINIGPT-4:利用先进的大型语言模型增强视觉语言理解

本文介绍了MiniGPT-4,一种基于大语言模型Vicuna的视觉语言模型,通过将视觉编码器与高级LLM对齐,模拟GPT-4的多模态能力。研究发现,简单的对齐方法不足以获得高质量输出,微调阶段的详细图像描述数据集显著提升了模型的生成可靠性。
摘要由CSDN通过智能技术生成

摘要:

最近的 GPT-4 展示了非凡的多模式能力,例如直接从手写文本生成网站以及识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。然而,GPT-4 背后的技术细节仍未公开。我们相信 GPT-4 增强的多模态生成能力源于复杂的大语言模型 (LLM) 的利用。为了研究这一现象,我们提出了 MiniGPT-4,它使用一个投影层将冻结的视觉编码器与冻结的高级 LLM、Vicuna 对齐。我们的工作首次发现,将视觉特征与高级大语言模型正确对齐可以拥有 GPT-4 所展示的许多高级多模态能力,例如详细的图像描述生成和从手绘草稿创建网站。此外,我们还观察到 MiniGPT-4 中的其他新兴功能,包括受给定图像启发编写故事和诗歌、教用户如何根据食物照片烹饪等等。在我们的实验中,我们发现在短图像标题对上训练的模型可能会产生不自然的语言输出(例如重复和碎片)。为了解决这个问题,我们在第二阶段策划了详细的图像描述数据集来微调模型,从而提高了模型的生成可靠性和整体可用性。我们的代码、预训练模型和收集的数据集可在 https://minigpt-4.github.io/ 上获取。

1 引言

近年来,大型语言模型(LLM)经历了快速发展(Ouyang et al., 2022; OpenAI, 2022; Brown et al., 2020; Scao et al., 2022a; Touvron et al., 2023; Chowdhery等人,2022;霍夫曼等人,2022)。凭借卓越的语言理解能力,这些模型可以以零样本的方式执行各种复杂的语言任务。值得注意的是,最近推出了大规模多模态模型 GPT-4,并展示了多种令人印象深刻的视觉语言理解和生成功能(OpenAI,2023)。例如,GPT-4可以产生详细而准确的图像描述,解释不寻常的视觉现象,甚至可以根据手写文本指令构建网站。

尽管 GPT-4 表现出了卓越的视觉语言能力,但其卓越能力背后的方法仍然是个谜(OpenAI,2023)。我们相信这些令人印象深刻的技能可能源于更先进的大语言模型(LLM)的使用。 GPT-3 的小样本提示设置(Brown 等人,2020)和 Wei 等人的研究结果证明了法学硕士已经展示了各种新兴能力。 (2022)(Wei 等人,2022)。在较小规模的模型中很难找到这样的新兴特性。据推测,这些新兴能力也适用于多模态模型,这可能是 GPT-4 令人印象深刻的视觉描述能力的基础。

为了证实我们的假设,我们提出了一种新颖的视觉语言模型,名为 MiniGPT-4。它采用先进的大语言模型 (LLM) Vicuna(Chiang 等人,2023),该模型建立在 LLaMA(Touvron 等人,2023)的基础上,据报道根据 GPT-4 的评估达到了 ChatGPT 90% 的质量,作为语言解码器。在视觉感知方面,我们采用与 BLIP-2 (Li et al., 2023) 相同的预训练视觉组件,其中包含来自 EVA-CLIP (Fang et al., 2022) 的 ViT-G/14 和 Q-前网络。 MiniGPT-4 添加了一个投影层,将编码的视觉特征与 Vicuna 语言模型对齐,并冻结所有其他视觉和语言组件。 MiniGPT-4 最初在 4

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值