MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

Ming_Chens

已于 2024-08-06 20:08:36 修改

阅读量599

点赞数 20

分类专栏：多模态大模型文章标签：语言模型人工智能深度学习

于 2024-08-06 19:47:34 首次发布

本文链接：https://blog.csdn.net/s_m_c/article/details/140964495

版权

多模态大模型专栏收录该内容

26 篇文章 0 订阅

订阅专栏

发表时间：20 Apr 2023

论文链接：https://arxiv.org/abs/2304.10592

作者单位：King Abdullah University of Science and Technology

Motivation：最近的 GPT-4 已经证明了非凡的多模态能力，例如直接从手写文本生成网站并识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少被观察到。我们相信 GPT-4 高级多模态生成能力的主要原因是利用了更高级的大型语言模型 (LLM)。作者认为之前的模型（如BLIP2，Kosmos-1）没能涌现能力是因为他们没有使用现在先进的大语言模型（比如Vicuna）。涌现能力的具体表现：MiniGPT-4 可以生成复杂的图像描述，基于手写文本指令创建网站，并解释不寻常的视觉现象。

解决方法：为了检查这种现象（GPT-4 高级多模态生成能力的主要原因是利用了更高级的大型语言模型 (LLM)），我们提出了 MiniGPT-4，它仅使用一个投影层将冻结的视觉编码器与冻结的 LLM Vicuna 对齐（整篇工作只训练这个线性层）。我们的研究结果表明，MiniGPT-4 具有许多类似于 GPT-4 展示的功能，例如从手写草稿创建详细的图像描述生成和网站。

实现方式：

架构：

利用Vicuna作为我们的语言解码器，它是在LLAMA的基础上构建的，可以执行广泛的复杂语言任务。
对于视觉感知，我们使用与 BLIP-2 中使用的相同的视觉编码器，ViT 主干及其预训练的 Q-Former。

训练方式：为了实现有效的 MiniGPT-4，我们提出了一种两阶段训练方法。

初始阶段涉及在大量对齐的图像-文本对上预训练模型以获得视觉语言知识。
在第二阶段，我们使用设计的会话模板对具有更小但高质量的图像-文本数据集的预训练模型进行微调，以增强模型的生成可靠性和可用性。 这有点类似于GPT，先搞一个基座，然后高质量fine-tune。

训练细节：

First pretraining stage：

固定基座参数：整个预训练过程中，预训练的视觉编码器和LLM保持冻结状态，只有线性映射层进行了预训练。
训练集使用：使用了Conceptual Caption、SBU和LAION等数据集来训练我们的模型。
训练参数和过程：模型训练了20,000个迭代次数，批量大小为256，涵盖了约500万个图像-文本对。整个过程大约需要10个小时，利用了4个A100（80GB）GPU。

在初始预训练阶段，该模型旨在通过大量对齐的图像-文本对来获取视觉-语言知识。我们将线性投影层输出视为LLM（大型语言模型）的软提示（soft prompt），促使其生成对应的真实文本。然而，我们观察到它难以产生连贯的语言输出的实例，例如生成重复的单词或句子、碎片化的句子或不相关的内容（很可能是因为数据集的质量不高）。这些问题阻碍了 MiniGPT-4 与人类进行流畅视觉对话的能力。这种现象与其初始预训练阶段之后与 MiniGPT-4 的当前状态相似（GPT3也产生了类似的现象）。因此，我们的模型在这个阶段可能难以生成流畅和自然的人类语言输出也就不足为奇了。

Second-stage finetuning：为了解决上述问题，作者精心策划了一个高质量的图像-文本数据集（使用GPT生成，分成Initial aligned image-text generation和Data post-processing两个步骤），专门为对齐目的量身定制。该数据集随后用于在第二阶段对齐过程中微调我们的 MiniGPT-4。在第二阶段，作者使用精心设计的高质量图像-文本对对预训练模型进行微调。经过这个步骤后，MiniGPT-4 现在能够产生更自然、更可靠的语言输出。

实验：MiniGPT-4 exhibits a multitude of capabilities similar to those demonstrated by GPT-4, 原文中的Fig. 2到Fig. 13.

结论：

我们的研究表明，通过将视觉特征与先进的大型语言模型 Vicuna 对齐，我们可以获得涌现出的视觉语言能力。
通过利用预训练的视觉编码器和大型语言模型，MiniGPT-4 实现了更高的计算效率。我们的研究结果表明，仅训练一个投影层可以有效地将视觉特征与大型语言模型对齐。
我们发现，简单地使用来自公共数据集的原始图像-文本对将视觉特征与大型语言模型对齐不足以开发性能良好的 MiniGPT-4 模型。它可能会产生不自然的语言输出，这些输出缺乏连贯性（原始图像-文本对背后的噪声可能导致语言输出不连贯），包括重复和碎片化的句子(第一阶段训练产生的结果，之前的GPT3也面临同样的问题)。解决这一限制需要使用高质量、对齐良好的数据集进行训练，这显著提高了其可用性（第二阶段的训练）。

Limitations：

Language hallucination： 继承了大语言模型的幻觉，by training the model with more high-quality, aligned image-text pairs, or aligning with more advanced LLMs in the future.
Inadequate perception capacities：MiniGPT-4 的视觉感知仍然有限。它可能难以从图像中识别详细的文本信息，并区分空间定位。这种限制可能源于几个因素：1）缺乏足够的对齐图像文本数据，包含足够的信息，例如空间定位和光学字符注释。这个问题可以通过对更对齐和丰富的数据进行训练来缓解。2)视觉编码器中使用的冻结Q-former可能会丢失一些基本特征，如视觉-空间接地。这可以通过用更强的视觉感知模型替换它来改进。3) 仅训练一个投影层可能无法提供足够的能力来学习广泛的视觉-文本对齐。