MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

最新推荐文章于 2024-08-01 20:59:33 发布

迈瑞的话2

最新推荐文章于 2024-08-01 20:59:33 发布

阅读量211

点赞数 2

分类专栏：大模型文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/m0_53568796/article/details/133044373

版权

大模型专栏收录该内容

1 篇文章 0 订阅

订阅专栏

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

1.Introduction

1、与大语言模型Vicuna结合，拥有和GPT-4类似的功能
2、仅训练一个投影层就可以有效地将视觉特征与大型语言模型对齐，拥有更高的计算效率，在4个A100的gpu上训练10个小时。
3、用公开数据集的图片文本对进行训练输出的语句不自然、缺乏连贯性。所以使用了另外 3,500 个高质量对齐的图像文本对，以使用设计的会话模板进一步微调模型，以提高生成语言的自然度及其可用性。

2.Related Works

1、Large language models
2、Leveraging Pre-trained LLMs in Vision-Language Tasks

3.Method

利用在LLaMA上构建的Vicuna作为language decoder；采用与BLIP-2中相同的visual encoder，即ViT backbone与其预训练的Q-Former相结合。我们的目标是使用线性投影层来弥合visual encoder和 LLM 之间的差距。如图所示。

在这里插入图片描述

3.1 第一预训练阶段

在第一预训练阶段，利用大量对其的图片-文本对获取视觉-语言知识，将注入投影层的输出视作LLM的软提示（soft prompt）来提示LLM生成相应的真实文本。在整个与训练过程中，预训练的视觉编码器和LLM都保持冻结状态只有线性投影层被预训练。
第一预训练阶段的问题：难以产生连贯的输出语言。

3.2 为视觉语言领域策划高质量的对齐数据集。

初始对齐的图像文本生成：首先，采用第一预训练阶段导出的模型生成给定图像的全面描述。其中设计了一个遵循Vicuna语言模型的对话格式的提示：

###Human: <Img><ImageFeature></Img> Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:

在此提示中，表示线性投影图层产生的视觉特征。
为了识别不完整的句子，我们检查生成的句子是否超过 80 个标记。如果没有，我们会添加一个额外的提示

###Human: Continue ###Assistant:

这种方法使我们能够生成更多具有详细且信息丰富的图像描述的图像文本对。
我们从 Conceptual Caption 数据集中随机选择 5,000 张图像，并采用这种方法为每个图像生成相应的语言描述。

数据后处理：生成的图像描述仍然存在很多噪声并包含错误，为了缓解这些问题，我们使用 ChatGPT 通过以下提示来完善描述：

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

完成后处理阶段后，我们手动验证每个图像描述的正确性，以保证其高质量，最终从5000个图片文本队中选择了3500个满足要求的，用于第二阶段的微调对齐。

3.3 第二阶段微调

第二阶段，使用上面选出的3500个图片文本对来微调我们的预训练模型，在微调过程中，我们使用以下模板中的预定义提示：

###Human: <Img><ImageFeature></Img> <Instruction> ###Assistant:

在此提示中，表示从我们的预定义指令集中随机采样的指令，其中包含不同形式的指令，例如“详细描述此图像”或“您能为我描述此图像的内容吗”。值得注意的是，我们不会计算此特定文本图像提示的回归损失。
此微调速度非常快，仅需要 400 个训练步骤，批量大小为 12，使用单个 A100 GPU 只需 7 分钟即可完成。

4.功能演示

MiniGPT-4 展示了许多与 GPT-4 类似的功能。其中包括生成详细的图像描述、识别图像中有趣的方面以及发现不寻常的内容。此外，该模型还可以根据手写文本生成网站。MiniGPT-4还具有其他能力，例如识别图像中的问题并提供解决方案、受图像启发创作诗歌或说唱歌曲、为图像写故事、用图像制作产品广告、识别个人、提供有洞察力的图像评论、检索与图像相关的事实以及教用户根据给定的信息烹饪食物照片。这些不同的示例展示了 MiniGPT-4 的强大功能。具体功能演示，大家可以去论文中看。
论文链接MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

5.局限性

1、Language hallucination：继承了 LLM 的局限性，例如不可靠的推理能力和幻觉不存在的知识。通过使用更高质量、对齐的图像文本对来训练模型，或者将来与更高级的LLM（例如明年要推出的GPT-5）对齐，可以缓解这个问题。
2、Inadequate perception capacities：MiniGPT-4 的视觉感知仍然有限。它可能很难从图像中识别详细的文本信息，并区分空间定位。这种限制可能源于以下几个因素：1）缺乏足够对齐的图像文本数据，其中包含足够的信息，例如空间定位和光学字符注释。通过使用更一致、更丰富的数据进行训练可以缓解这个问题。 2）视觉编码器中使用的冻结Q-former可能会失去一些基本特征，例如视觉空间接地。通过用更强大的视觉感知模型替换它，这可能会得到改善。 3）仅训练一个投影层可能无法提供足够的能力来学习广泛的视觉文本对齐。

声明

本文是基于MiniGPT-4这篇论文写出的理解及概述，由于本人是研一学生，理解尚浅，想要详细了解论文内容和细节，请阅读原文进行学习，谢谢支持！
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models