论文速读|BLIP-2: Bootstrapping VLP with Frozen Image Encoders and Large Language models

本文链接：https://blog.csdn.net/Romaga/article/details/145326293

论文地址：BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
代码地址：
https://github.com/salesforce/lavis
https://github.com/salesforce/LAVIS/tree/main/projects/blip2
更多参考代码：
https://paperswithcode.com/paper/blip-2-bootstrapping-language-image-pre
官方文档：【推荐】
https://huggingface.co/docs/transformers/main/model_doc/blip-2
bib引用：

@misc{li2023blip2bootstrappinglanguageimagepretraining,
      title={BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models}, 
      author={Junnan Li and Dongxu Li and Silvio Savarese and Steven Hoi},
      year={2023},
      eprint={2301.12597},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2301.12597}, 
}

InShort

提出了BLIP-2这种通用且高效的预训练策略，利用冻结的预训练图像编码器和大语言模型进行视觉语言预训练，在多种视觉语言任务上取得了优异成绩。

研究背景：视觉语言预训练（VLP）发展迅速，但大多数先进模型在预训练时计算成本高昂。利用现成的单模态预训练模型进行VLP是降低成本的有效途径，但冻结的大语言模型（LLMs）使得视觉语言对齐具有挑战性。
相关工作
- 端到端视觉语言预训练：旨在学习多模态基础模型，通过大规模图像文本对数据集进行端到端预训练，但计算成本高，且难以利用现有的单模态预训练模型。
- 模块化视觉语言预训练：部分方法冻结图像编码器或语言模型，但在使用冻结的LLMs时，视觉特征与文本空间的对齐存在挑战。BLIP-2能更有效地利用冻结模型，以更低计算成本实现更强性能。
方法
- 模型架构：提出Q-Former作为可训练模块，连接冻结的图像编码器和LLMs。它包含图像和文本两个共享自注意力层的transformer子模块，通过可学习的查询嵌入提取视觉特征。
- 两阶段预训练：第一阶段，通过图像文本对比学习（ITC）、基于图像的文本生成（ITG）和图像文本匹配（ITM）三个目标联合优化，使查询学习与文本相关的视觉表示。第二阶段，将Q-Former连接到冻结的LLMs，通过语言建模或前缀语言建模损失进行训练，利用LLMs的生成能力。
- 模型预训练：使用包含多种数据集的129M图像进行预训练，采用CapFilt方法创建合成字幕。探索了不同的预训练图像编码器和LLMs，设置了相应的预训练超参数，整个预训练过程计算友好。【同BLIP的CapFilt】
实验
- 零样本图像到文本生成：BLIP-2能使LLMs理解图像并遵循文本提示，在零样本视觉问答任务上取得了最先进的结果，且更强的图像编码器或LLMs能带来更好的性能。第一阶段的表示学习对模型性能提升至关重要。
- 图像字幕：对BLIP-2模型进行微调，在NoCaps数据集上取得了最先进的性能，展现了强大的泛化能力。
- 视觉问答：微调Q-Former和图像编码器参数，在开放式答案生成模型中，BLIP-2取得了领先结果。
- 图像文本检索：直接微调第一阶段预训练模型，在零样本图像文本检索上性能超越现有方法，ITG损失对提升性能有益。
局限性：BLIP-2在上下文学习方面存在不足，提供上下文VQA示例时性能未提升，可能是由于预训练数据集缺乏多图像文本对序列。此外，其图像到文本生成结果可能因LLMs的问题而不理想，还存在输出有害内容的风险。
- 【上下文学习：语料丰富的数据集】
- 【隐私问题：①使用说明指导生成；②对数据集进行过滤】
结论：BLIP-2是一种通用且计算高效的视觉语言预训练方法，在多种任务上性能卓越，预训练时可训练参数少，在零样本图像到文本生成方面展现出新兴能力，为构建多模态对话AI代理迈出重要一步。

摘要

由于大规模模型的端到端训练，视觉和语言预训练的成本变得越来越高。本文提出了 BLIP-2，这是一种通用且高效的预训练策略，可从现成的冻结预训练图像编码器和冻结大型语言模型引导视觉语言预训练。
BLIP-2 通过轻量级查询转换器QFormer 弥补了模态差距，该转换器分两个阶段进行预训练。

第一阶段从冻结图像编码器引导视觉语言表示学习。
第二阶段从冻结的语言模型引导视觉到语言的生成学习。

尽管可训练参数比现有方法少得多，但 BLIP-2 在各种视觉语言任务上实现了最先进的性能。例如，我们的模型比 Flamingo80B 好 8 个。零样本 VQAv2 的性能提升了 7%，可训练参数减少了 54 倍。我们还展示了该模型的新兴功能，即可以遵循自然语言指令的零样本图像到文本生成。

Introduction

视觉语言预训练（VLP）研究在过去几年中取得了快速发展，规模越来越大的预训练模型被开发出来，不断推动各种下游任务的最先进水平（Radford等人，2021；Li 等人，2021；2022；Wang 等人，2022a；Alayrac 等人，2022；Wang 等人，2022b)。然而，由于使用大规模模型和数据集进行端到端训练，大多数最先进的视觉语言模型在预训练期间都会产生很高的计算成本。

视觉语言研究位于视觉和语言之间的交叉点，因此自然期望视觉语言模型可以从视觉和自然语言社区中现成的单峰模型中获益。在本文中，我们通过从现成的预训练视觉模型和语言模型中引导，提出了一种通用且计算高效的 VLP 方法。预先训练的视觉模型提供高质量的视觉表示。预训练的语言模型，特别是大型语言模型（LLM），提供强大的语言生成和零样本迁移能力。为了降低计算成本并抵消灾难性遗忘问题，单峰预训练模型在预训练期间保持冻结状态。

为了利用预训练的单模态模型进行 VLP，促进跨模态对齐是关键。然而，由于LLM 在单模态预训练期间没有看到图像，因此冻结它们使得视觉-语言对齐特别具有挑战性。在这方面，现有方法（例如 Frozen（Tsimpoukelli 等人，2021）、Flamingo（Alayrac 等人，2022））诉诸图像到文本生成损失，我们证明这不足以弥合模态差距。

在这里插入图片描述

为了与冻结的单峰模型实现有效的视觉语言对齐，我们提出了一种使用新的两阶段预训练策略进行预训练的查询转换器（QFormer）。如图 1 所示，Q-Former 是一种轻量级转换器，它采用一组可学习的查询向量从冻结图像编码器中提取视觉特征。它充当冻结图像编码器和冻结 LLM 之间的信息瓶颈，为 LLM 提供最有用的视觉特征以输出所需的文本。在第一个预训练阶段，我们执行视觉语言表示学习，强制 Q-Former 学习与文本最相关的视觉表示。在第二个预训练阶段，我们通过将 Q-Former 的输出连接到冻结的 LLM 来执行视觉到语言的生成学习，并训练 Q-Former 使其输出的视觉表示可以由 LLM 解释。

我们将我们的 VLP 框架命名为 BLIP-2：使用冻结的 Unimodal 进行引导语言图像预训练。
BLIP-2 的主要优势包括：

BLIP-2 有效地利用了冻结的预训练图像模型和语言模型。我们使用分两个阶段预训练的 Q-Former 来弥补模态差距：表示学习阶段和生成学习阶段。 BLIP-2 在各种视觉语言任务上实现了最先进的性能，包括视觉问答、图像字幕和图像文本检索。
由 LLM（例如 OPT（Zhang 等人，2022）、FlanT5（Chung 等人，2022））提供支持，可以提示 BLIP-2 执行遵循自然语言指令的零样本图像到文本生成，它实现了视觉知识推理、视觉对话等新兴功能（示例见图 4）。
由于使用了冻结单峰模型和轻量级Q-Former，BLIP-2 比现有最先进的技术具有更高的计算效率。例如，BLIP-2 在零样本 VQAv2 上的性能比 Flamingo（Alayrac 等人，2022）高出 8.7%，同时使用的可训练参数少了 54 倍。此外，我们的结果表明 BLIP-2 是一种通用方法，可以收获更先进的单峰模型以获得更好的 VLP 性能。

补充1：关于引言提到的 Unimodal ：在这里主要为单模态的预训练模型

1.定义与内涵：“unimodal”用于描述仅涉及一种数据模态的模型、数据或任务。在视觉语言研究领域，存在视觉和语言两种主要模态。视觉模态包含图像、视频等以视觉信息为主的数据形式；语言模态则涵盖文本、语句等以语言符号为载体的数据。单模态预训练模型是指仅在单一模态数据上进行预训练的模型，像仅在大量图像数据上训练的视觉预训练模型，以及仅在海量文本数据上训练的语言预训练模型（如大语言模型LLMs）。
2. 作用：视觉语言研究位于视觉和语言的交叉点，利用单模态预训练模型是降低计算成本、提升模型性能的有效途径。预训练的视觉模型能提供高质量的视觉特征表示，而预训练的语言模型（尤其是LLMs）具备强大的语言生成和零样本迁移能力。然而，由于LLMs在单模态预训练期间未接触过图像，在视觉语言预训练过程中冻结这些单模态预训练模型时，实现视觉与语言模态的有效对齐成为关键挑战。例如，现有方法在使用冻结的LLMs时，因难以对齐视觉特征和文本空间，导致视觉语言对齐效果不佳。BLIP - 2则致力于解决这一问题，通过提出Querying Transformer（QFormer）和两阶段预训练策略，有效利用冻结的单模态预训练模型，实现更好的视觉语言对齐和任务性能。

2. 相关工作

2.2. 模块化的视觉语言预训练

与我们更相似的是利用现成的预训练模型并在 VLP 期间将其冻结的方法。一些方法可以冻结图像编码器，包括早期采用冻结对象检测器提取视觉特征的工作（Chen et al.， 2020;Li et al.， 2020;Zhang等人，2021 年），以及最近的 LiT（Zhai等人，2022 年），它使用冻结的预训练图像编码器进行 CLIP（Radford等人，2021 年）预训练。一些方法冻结语言模型，以将 LLM 中的知识用于视觉到语言的生成任务（Tsimpoukelli et al.， 2021;Alayrac et al.， 2022;Chen et al.， 2022a;马 ̃nas 等人，2023 年;Tiong等人，2022 年;Guo et al.， 2022）。使用冻结的 LLM 的主要挑战是将视觉特征与文本空间对齐。
为了实现这一目标，Frozen （Tsimpoukelli et al.， 2021）微调了一个图像编码器，其输出直接用作 LLM 的软提示。Flamingo （Alayrac et al.， 2022）在 LLM 中插入新的交叉注意力层以注入视觉特征，并在数十亿个图像-文本对上预训练新层。两种方法都采用语言建模损失，即语言模型以图像为条件生成文本。与现有方法不同，BLIP-2 可以有效且高效地利用冻结图像编码器和冻结 LLM 来完成各种视觉语言任务，以较低的计算成本实现更强的性能。

3. 方法

我们提出了 BLIP-2，一种新的视觉语言预训练方法，它从冻结的预训练单峰模型中引导而来。为了弥合模态差距，我们提出了一个查询转换器（Q-Former）分两个阶段进行预训练：（1）带有冻结图像编码器的视觉-语言表示学习阶段和（2）带有冻结 LLM 的视觉到语言生成学习阶段。本节首先介绍了 Q-Former 的模型架构，然后描述了两个阶段的预训练过程。
在这里插入图片描述

图 2.（左）Q-Former 和 BLIP-2 的第一阶段视觉-语言表示学习目标的模型架构。我们共同优化了三个目标，这些目标强制执行查询（一组可学习的嵌入）以提取与文本最相关的视觉表示。（右）用于控制查询文本交互的每个目标的自注意力掩码策略。

3.1. 模型架构

我们提出的 Q-Former 作为可训练模块，以弥合冻结图像编码器和冻结 LLM 之间的差距。它从图像编码器中提取固定数量的输出特征，与输入图像分辨率无关。如图 2 所示，Q-Former 由两个 transformer 子模块组成，它们共享相同的自注意力层：（1）一个与冻结图像编码器交互的图像 transformer对于视觉特征提取，（2）一个文本转换器，它既可以用作文本编码器，也可以用作文本解码器。我们创建一组可学习的查询嵌入作为 image transformer 的输入。查询通过自注意力层相互交互，并通过交叉注意力层（每隔一个 transformer 块插入一次）与冻结的图像特征交互。查询还可以通过相同的自我注意层与文本交互。根据预训练任务，我们应用不同的自我注意掩码来控制查询-文本交互。我们使用 $BERT_{base}$ （Devlin et al.， 2019）的预训练权重初始化 QFormer，而交叉注意力层是随机初始化的。Q-Former 总共包含 188M 个参数。请注意，查询被视为模型参数。

在我们的实验中，我们使用 32 个查询，其中每个查询的维度为 768（与 Q-Former 的隐藏维度相同）。我们使用 Z 来表示输出查询表示形式。Z 的大小（32 × 768）远小于冻结图像特征的大小（例如 ViT-L/14 为 257 × 1024）。这种瓶颈架构与我们的预训练目标一起工作，以强制查询提取与文本最相关的视觉信息。

3.2. 从冻结的图像编码器中学习Bootstrap视觉语言表征

在表示学习阶段，我们将 Q-Former 连接到冻结的图像编码器，并使用图像-文本对进行预训练。我们的目标是训练 Q-Former，以便查询可以学习提取对文本信息量最大的视觉表示。受 BLIP （Li et al.， 2022）的启发，我们共同优化了三个具有相同输入格式和模型参数的预训练目标。每个目标在查询和文本之间采用不同的注意力掩蔽策略来控制它们的交互（参见图 2）。

3.2.1. ITC 图文对比学习

图像-文本对比学习（ITC）学习对齐图像表示和文本表示，以便最大限度地利用它们的共同信息。它通过对比正对与负对的图像-文本相似性来实现这一点。我们将 image transformer 的输出查询表示 Z 与文本表示对齐t 来自文本转换器，其中 t 是 [CLS] 标记的输出嵌入。由于 Z 包含多个输出嵌入（每个查询一个），我们首先计算每个查询输出与 t 之间的成对相似性，然后选择最高的一个作为图像-文本相似度。为避免信息泄露，我们采用了单模态自注意力掩码，其中 queries 和 text 不允许相互看到。由于使用了冻结图像编码器，与端到端方法相比，我们可以在每个 GPU 上容纳更多的样本。因此，我们在 BLIP 中使用批量内负数而不是动量队列。

3.2.2. ITG 基于图像生成文本

以输入图像为条件，图像基于文本生成（ITG）损失训练 Q-Former 生成文本。由于 Q-Former 的架构不允许冻结图像编码器和文本令牌之间的直接交互，因此生成文本所需的信息必须首先由查询提取，然后通过自注意力层传递给文本令牌。因此，查询被迫提取捕获有关文本的所有信息的视觉特征。我们采用多模态因果自我注意掩码来控制查询-文本交互，类似于 UniLM 中使用的掩码（Dong et al.， 2019）。查询可以相互处理，但不能处理文本标记。每个文本标记都可以处理所有查询及其以前的文本标记。我们还将 [CLS] 令牌替换为新的 [DEC] 令牌，作为向解码任务发出信号的第一个文本令牌。

3.2.3. ITM 图文匹配

图像-文本匹配（ITM）旨在学习图像和文本表示之间的细粒度对齐。这是一项二元分类任务，要求模型预测图像-文本对是正（匹配）还是负（不匹配）。我们使用双向的自我注意掩码，其中所有查询和文本都可以相互关注。因此，嵌入 Z 的输出查询会捕获多模式信息。我们将每个输出查询嵌入馈送到一个两类线性分类器中，以获得 logit，并将所有查询的 logit 平均为输出匹配分数。我们采用 Li 等人（2021;2022）的硬负挖掘策略来创建信息丰富的负对。
在这里插入图片描述

图 3.BLIP-2 的第二阶段视觉到语言生成式预训练，从冻结的大型语言模型（LLM）中引导。（页首）引导基于解码器的 LLM （例如 OPT）。（下）引导基于编码器-解码器的 LLM（例如 FlanT5）。全连接层从 Q-Former 的输出维度适应所选 LLM 的输入维度。【两种LLM机制】
Notes：后面一种策略（基于编码器-解码器的 LLM）逐渐结合prompt learning应用到各个领域
encoder-decoder LLM 这种模型架构，侧重于对输入进行编码和解码的过程；而 prompt learning 这种利用提示信息引导模型进行任务处理的方法，它可以应用于多种模型架构，不仅仅是 encoder-decoder LLM 哦

3.3. 从冻结的 LLM 开始引导视觉到语言生成学习

在生成式预训练阶段，我们将 QFormer（连接了冻结图像编码器）连接到冻结的 LLM，以收获 LLM 的生成语言能力。如图 3 所示，我们使用全连接（FC）层将输出查询嵌入 Z 线性投影到与 LLM 的文本嵌入相同的维度。然后，投影的查询嵌入将添加到输入文本嵌入的前面。它们用作柔和的视觉提示，将 LLM 限制在 Q-Former 提取的视觉表示上。由于 Q-Former 已经经过预先训练以提取语言信息丰富的视觉表示，因此它有效地充当了信息瓶颈，将最有用的信息提供给 LLM，同时删除了不相关的视觉信息。这减轻了 LLM 学习视觉-语言对齐的负担，从而减轻了灾难性的遗忘问题。

我们试验了两种类型的 LLM：基于解码器的 LLM 和基于编码器-解码器的 LLM。

对于基于解码器的 LLM，我们使用语言建模损失进行预训练，其中冻结的 LLM 的任务是生成以 Q-Former 的视觉表示为条件的文本。
对于基于编码器-解码器的 LLM，我们使用前缀 language modeling loss 进行预训练，将文本分成两部分。前缀文本与视觉表示形式连接在一起，作为 LLM 编码器的输入。后缀文本用作 LLM 解码器的生成目标。

补充2：BLIP-2怎么减轻LLM常见的灾难性遗忘的问题

Q-Former作为信息瓶颈：Q-Former在预训练过程中，经过第一阶段的视觉语言表示学习，已经能够提取与语言相关的视觉表示。在连接到冻结的LLM时，它充当了信息瓶颈information bottleneck的角色。Q-Former会将从图像编码器中提取的最有用的视觉信息传递给LLM，而去除掉那些可能干扰LLM的无关视觉信息。在处理一张包含多种元素的复杂图像时，Q-Former能够筛选出与文本生成任务紧密相关的关键视觉特征，比如图像主体、关键动作等，避免让LLM学习过多冗余信息。这样一来，LLM无需花费大量精力去学习视觉与语言的对齐，减轻了学习负担，从而降低了灾难性遗忘的风险。
利用预训练知识：由于Q-Former已经通过前期预训练具备了提取有效视觉信息的能力，它传递给LLM的视觉表示能够很好地与LLM已有的语言知识相结合。LLM在其单模态预训练过程中已经学习了丰富的语言知识和生成能力，当Q-Former提供的视觉信息作为软视觉提示输入时，LLM可以在不改变自身原有语言知识结构的基础上，利用这些视觉信息进行条件生成。对于一个经过这样训练的语言模型，它已经掌握了语法、语义等知识，此时Q-Former传递的视觉信息就像是在其熟悉的语言任务中添加了一些新的、经过筛选的条件，LLM能够自然地将这些条件融入到生成过程中，而不是被全新的视觉信息完全打乱已有的知识体系，进而减轻了灾难性遗忘的问题。
合适的训练方式：在训练过程中，针对不同类型的LLM采用了不同的训练方式。
- 对于解码器型LLM，使用语言建模损失进行训练，让LLM基于Q-Former提取的视觉表示生成文本；
- 对于编码器-解码器型LLM，则采用前缀语言建模损失，将文本拆分为两部分，分别用于编码和解码训练。
  这些训练方式都是根据LLM的结构特点进行设计的，能够让LLM在接收视觉信息的同时，以一种较为温和的方式适应新的任务需求，避免因突然接触大量新信息而导致遗忘原有知识，进一步减轻了灾难性遗忘问题。

补充2.1. 关于本文涉及的 information bottleneck（≠information backbone）

“information bottleneck”（信息瓶颈）侧重于对信息进行筛选和压缩，去除冗余，而“information backbone”（信息中枢或主干）更强调作为核心通道，广泛传递各类信息，以支撑整个系统运转。

信息瓶颈（information bottleneck）的作用：【中间层+筛选过滤冗余信息】在BLIP-2中，Q-Former作为信息瓶颈，会从冻结图像编码器的大量输出中，挑选出对后续任务（如文本生成）最关键、最有用的信息，传递给LLM。它就像一个严格的筛选器，只让最有价值的信息通过，减少LLM需要处理的信息量，降低其学习负担，防止灾难性遗忘，提升模型在视觉语言任务上的表现。
信息中枢（information backbone）的概念：【中间层】如果是“information backbone”，意味着它是信息传递的核心通道，负责在不同组件间广泛地传输各种信息，通常不会对信息进行筛选或限制，更强调其作为信息流通主干道的作用，要保障各类信息能顺畅地在不同模块间传递，以维持整个系统的正常运行。

补充3：关于3.3.提及的两种LLM（decoder based;encoder-decoder based）

【实验方面的性能表明：需要理解问题并准确回答的VQA这类任务时，encoder-decoder based类型的T5性能好些】

不同LLM在实验中的表现差异：在零样本视觉问答Zero-shot VQA 任务中，使用不同LLM的BLIP-2模型呈现出不同性能。对于解码器型LLM（如OPT系列）和编码器-解码器型LLM（如FlanT5系列），在相同的图像编码器（如ViT-g）搭配下，随着LLM规模增大，模型在VQAv2、GQA等数据集上的准确率都有所提升。FlanT5作为经过指令调优的编码器-解码器型LLM，在VQA任务上整体表现优于未经指令调优的解码器型OPT。这表明在处理需要理解问题并准确回答的视觉问答任务时，FlanT5凭借其指令调优带来的对任务理解和执行能力的增强，展现出一定优势。
性能差异的原因分析：FlanT5在VQA任务上表现更优，可能是因为其编码器-解码器结构以及指令调优的特性。编码器-解码器结构可以更好地对输入信息进行编码理解，再生成输出，这种结构在处理需要综合分析视觉信息和文本问题的任务时更具优势。而指令调优让FlanT5对各种任务指令有更好的理解和执行能力，使其在视觉问答这类需要准确理解问题意图并给出恰当回答的任务中表现出色。相比之下，OPT作为解码器型LLM，在应对视觉问答任务时，可能由于缺乏针对性的指令调优等因素，导致性能稍逊一筹。

3.4. 模型预训练

3.4.1. 数据【生成10句描述文本，选相似度max的前2个作为训练数据，预训练随机采样一句】

使用的预训练数据集以及为网络图像创建合成描述文本的方法：
首先，使用了与 BLIP 相同的预训练数据集，总共有 129M 张图像，具体包括 COCO、Visual Genome、CC3M、CC12M、SBU 以及来自 LAION400M 数据集的 115M 图像。
接着，采用 CapFilt 方法为网络图像创建合成描述文本。【同BLIP】

具体做法：

使用 $BLIP_{large}$ caption model 模型生成 10 个描述文本，
根据 CLIP ViT-L/14 模型生成的图像 - 文本相似性对合成字幕与原始网络描述文本进行排名。
最后，将每张图像的前两个描述文本作为训练数据，并且在每个预训练步骤中随机采样一个。

3.4.2. 预训练图像编码器和 LLM

对于冻结图像编码器，我们探索了两种最先进的预训练视觉转换器模型：（1）来自 CLIP 的 ViT-L/14 （Radfordet al.， 2021）和（2）来自 EVA-CLIP 的 ViT-g/14 （Fanget al.， 2022）。我们删除了 ViT 的最后一层，并使用倒数第二层的输出功能，这导致性能略好。
对于冻结语言模型，我们探索了基于解码器的 LLM 的无监督训练的 OPT 模型族（Zhang等人，2022 年），以及用于基于编码器-解码器的 LLM 的指令训练的 FlanT5 模型族（Chung et al.， 2022）。

3.4.3. 预训练设置

我们在第一阶段预训练 250k 步，在第二阶段预训练 80k 步。我们在第一阶段对 ViT-L/ViT-g 使用 2320/1680 的批次大小，在第二阶段对 OPT/FlanT5 使用 1920/1520 的批次大小。在预训练期间，我们将冻结的 ViT’ 和 $LL M s^{'}$ 参数转换为 FPl6，除了 FlanT5 我们使用 BFloat16。我们发现与使用 32 位模型相比，性能没有下降。由于使用了冻结模型，我们的预训练比现有的大规模 VLP 方法更具计算友好性。例如，使用一台 16-A100（40G）机器，我们最大的型号配备 ViT-g 和 FlanT5-XXL 的第一级需要不到 6 天，第二级需要不到 3 天。

所有模型都使用同一组预训练超参数。我们使用AdamW （Loshchilov & Hutter， 2017）优化器与 $\beta_{1}=0.9$ ， $\beta_{1}=0.98$ ，以及0.05的权重衰减。我们使用余弦学习率衰减，峰值学习率为 1e-4，线性预热为 2k 步。第二阶段的最低学习率为 5e-5。我们使用大小为 224×224 的图像，并通过随机调整大小的裁剪和水平翻转进行增强。

5.Limitation【1.上下文学习需要丰富的数据语料；2.LLM隐私问题→①使用说明指导生成；②对数据集进行过滤】

最近的 LLM 可以在给定的少量实例中进行上下文学习。但是，我们使用 BLIP-2 进行的实验并未发现，在为 LLM 提供上下文 VQA 示例时，VQA 性能有所提高。

我们将缺乏上下文学习能力归因于我们的预训练数据集，该数据集每个样本只包含一对图像-文本。LLM 无法从中学习单个序列中多个图像-文本对之间的相关性。Flamingo 论文中也报告了同样的观察结果，该论文使用的是近源交错图像和文本数据集 (M3W)，每个序列包含多个图像-文本对。我们的目标是在今后的工作中创建一个类似的数据集。

BLIP-2 的图像到文本生成可能会由于各种原因导致结果不尽人意，包括来自 LLM 的知识不准确、激活了不正确的推理路径，或者没有关于新图像内容的最新信息（见图 7）。此外，由于使用了冻结模型，BLIP-2 继承了 LLM 的风险，如输出攻击性语言、传播社会偏见或泄露私人信息。补救方法包括使用说明来指导模型的生成，或在去除有害内容的过滤数据集上进行训练。

在这里插入图片描述

图 7.VQA 微调的模型架构，其中 LLM 接收 Q-Former 的输出和问题作为输入，然后预测答案。我们还将问题作为条件提供给 Q-Former，以便提取的图像特征与问题更相关。

6. Conclusion

我们提出了 BLIP-2，这是一种通用且计算高效的视觉语言预训练方法，利用冻结的预训练图像编码器和 LLM。 BLIP-2 在各种视觉语言任务上实现了最先进的性能，同时在预训练期间具有少量可训练参数。 BLIP-2 还展示了零样本指导图像到文本生成的新兴功能。我们认为 BLIP-2 是构建多模式会话 AI 代理的重要一步。