BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Model

最新推荐文章于 2024-04-25 16:48:33 发布

庄园特聘拆椅狂魔

最新推荐文章于 2024-04-25 16:48:33 发布

阅读量1.3k

点赞数 26

分类专栏：论文与代码文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/lt_BeiMo/article/details/135078064

版权

论文与代码专栏收录该内容

5 篇文章 0 订阅

订阅专栏

BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

BLIP-2:用冻结图像编码器和大型语言模型引导语言图像预训练

1.摘要

由于大规模模型的端到端训练，视觉和语言预训练的成本变得越来越令人望而却步。本文提出了BLIP-2，一种通用和有效的预训练策略，它从现成的冻结预训练图像编码器和冻结大型语言模型启动视觉语言预训练。BLIP-2用一个轻量级的查询转换器弥合了通道之间的差距，该转换器分两个阶段进行预训练。第一阶段引导从冻结的图像编码器学习视觉语言表示。第二阶段从冻结的语言模型启动视觉到语言的生成学习。BLIP-2在各种视觉语言任务上实现了最先进的性能，尽管与现有方法相比，它的可训练参数少得多。例如，我们的模型在零触发VQAv2上的性能比Flamingo80B高8.7%，可训练参数少54倍。我们还展示了该模型的新兴功能，即可以遵循自然语言指令的零拍摄图像到文本的生成。

总结：

BLIP-2:一种通用和有效的预训练策略，

从现成的冻结预训练图像编码器和冻结大型语言模型启动视觉语言预训练

关键：一个轻量级的查询转换器弥合了通道之间的差距，该转换器分两个阶段进行预训练

训练两个阶段：

第一阶段引导从冻结的图像编码器学习视觉语言表示。

第二阶段从冻结的语言模型启动视觉到语言的生成学习。

效果：

在各种视觉语言任务上实现了最先进的性能，尽管与现有方法相比，它的可训练参数少得多。模型在zero-shot VQAv2上的性能比Flamingo80B高8.7%，可训练参数少54倍。

展示了该模型的新兴功能，即可以遵循自然语言指令的zero-shot 图像到文本的生成。

2.背景相关功能工作

因为：

视觉语言预训练VLP不断发展，不断推动各种下游任务的最新发展水平
由于使用大规模模型和数据集的端到端训练，大多数最新的视觉语言模型在预训练期间都存在高计算成本。

所以：

通过从现成的预先训练的视觉模型和语言模型中引导，计算高效的VLP方法。

        预先训练的视觉模型提供高质量的视觉表现。
        预先训练的语言模型，尤其是大型语言模型，提供了强大的语言生成和zero-shot能力。

为了减少计算成本和抵消灾难性遗忘的问题，单峰预训练模型在预训练期间保持冻结

又因为：

        为了利用预先训练好的VLP单模态模型，促进跨模态协调是关键

        然而，由于LLM在他们的单峰预训练中没有看到图像，冻结它们使得视觉语言对齐特别具有挑战性。

解决方案：

                图像到文本的生成损失，我们表明这不足以弥补模态差距

所以：

      提出了一种用新的两阶段预训练策略预训练的查询转换器(Q Former)

-------------------------------------------------------------------------------------------------------------------------

Q-Former是什么?

一个轻量级的反变换器，
使用一组可学习的查询向量从冻结图像编码器中提取视觉特征。
充当冻结图像编码器和冻结LLM之间的信息瓶颈，为LLM提供最有用的视觉特征以输出所需的文本。

在训练中如何使用？

第一个预训练阶段，执行视觉-语言表征学习，它强制Q-Former学习与文本最相关的视觉表征。
第二个预训练阶段，通过将Q-Former的输出连接到冻结的LLM来执行视觉到语言的一般学习，并且训练Q-Former，使得它的输出视觉表示可以被LLM解释。

图一BLIP-2框架概述。我们按照两阶段策略预先训练了一个轻量级查询转换器，以弥合通道间隙。第一阶段从冻结的图像编码器引导视觉语言表示学习。第二阶段从冻结的LLM启动视觉到语言的生成学习，这实现了zero-shot指示的图像到文本的生成(更多示例请参见图4)。

-------------------------------------------------------------------------------------------------------------------------

创新点：

BLIP-2：VLP框架命名为BLIP-2:用冻结的单峰模型引导语言图像预训练。

主要优势包括:

BLIP-2有效地利用了冻结的预训练图像模型和语言模型。
使用一个Q-Former在两个阶段预训练来弥合通道间隙:表示学习阶段和生成学习阶段。
在各种视觉语言任务上实现了最先进的性能，包括视觉问答、图像字幕和图像文本检索

由LLMs(例如OPT (Zhang等人，2022年)、FlanT5 (Chung等人，2022年))提供动力的BLIP-2可以被提示执行遵循自然语言指令的zero-shot图像到文本的生成，这实现了诸如视觉知识推理、视觉对话等新兴能力。
由于使用了冻结的单峰模型和轻量级Q-Former，BLIP-2的计算效率比现有的最先进技术更高。BLIP-2在Zero-shot VQAv2上的性能比Flamingo (Alayrac等人，2022)高出8.7%，而使用的可训练参数却少了54倍。

结果表明，BLIP-2是一种通用方法，可以获得更先进的单峰模型，以获得更好的VLP性能。

总结：

为什么提出Q-Former？

大模型在预训练期间都存在高计算成本，所以使用从现成的预先训练的视觉模型和语言模型
为了减少计算成本和抵消灾难性遗忘的问题，预训练模型在预训练期间保持冻结
为了利用预先训练好的VLP单模态模型，促进跨模态协调——所以提出了：一种用新的两阶段预训练策略预训练的查询转换器(Q Former)

Q-Former是什么？

使用一组可学习的查询向量从冻结图像编码器中提取视觉特征。
充当冻结图像编码器和冻结LLM之间的信息瓶颈，为LLM提供最有用的视觉特征

Q-Former在两个阶段充当什么角色？

第一个预训练阶段，执行视觉-语言表征学习，它强制Q-Former学习与文本最相关的视觉表征。
第二个预训练阶段，通过将Q-Former的输出连接到冻结的LLM来执行视觉到语言的一般学习，并且训练Q-Former，使得它的输出视觉表示可以被LLM解释。

创新点： Q-Former结构；视觉知识推理、视觉对话等新兴能力；效率更高，可训练参数更少。

相关工作：

端到端视觉语言预训练

视觉语言预训练旨在学习多模态基础模型，以提高在各种视觉和语言任务中的表现
大多数VLP方法使用大规模图像-文本对数据集执行端到端预训练。随着模型规模的不断增加，预训练会导致极高的计算成本。此外，端到端预训练模型利用容易获得的单峰预训练模型是不灵活的

模块化视觉-语言预训练

与我们更相似的方法是利用现成的预训练模型，并在VLP期间保持冻结。
与现有方法不同，BLIP-2可以有效地利用冻结图像编码器和冻结LLM来完成各种视觉语言任务，以更低的计算成本实现更强的性能。

总结：

视觉-语言端到端训练：计算成本高且不灵活
视觉-语言模块化训练：BLIP-2更有效，效率更高，计算成本更低。

3.方法设计

查询转换器(Q-Former )

查询转换器(Q-Former )：可训练模块，以弥补冻结图像编码器和冻结LLM之间的差距

分两个阶段进行预训练:

        (1)使用冻结模型学习图像表征、文本表征

        (2)使用冻结模型学习图像到文本生成

图二

(左)Q-Former和BLIP-2的第一阶段表征学习。联合优化三个目标，这三个目标训练一组可学习的嵌入，以提取与文本最相关的视觉表示。

(右)第二阶段 使用自我注意力掩蔽策略控制每个任务目标查询-文本交互

-------------------------------------------------------------------------------------------------------------------------

Q-Former组成：

由两个transformer子模块组成，共享相同的self Attention层:

        图像转换器:一个transformer模块与冻结图像编码器交互——>以提取视觉特征

        文本转换器:一个transformer模块即可以做文本编码器，又可以作为文本解码器的。

（这个地方怎么理解？）

        创建一组可学习的查询嵌入作为图像转换器的输入

查询嵌入：

查询之间通过self-Attention层彼此交互，
查询与冻结的图像特征交互——>通过cross-Attention层[随机初始化]。
查询和文本交互——>不同的任务不同的self-attention masks策略

预训练任务目标：迫使查询提取与文本最相关的视觉信息

BERTbase预训练的权重初始化Q Former，
包含188M个参数。
32个查询，每个查询的维度为768(与Q-Former的隐藏维度相同)。
Z来表示图像转换器输出的query representation 。Z的大小(32 ×768)远小于冻结图像特征的大小

-------------------------------------------------------------------------------------------------------------------------

从冻结图像编码器学习的促进视觉-语言的表征学习

目标是训练Q-Former，以便查询可以学习提取最能提供文本信息的视觉表示

     联合优化了三个共享相同输入格式和模型参数的预训练目标。

     每个目标在查询和文本之间采用不同的attention masking strategy来控制它们的交互

图像-文本对比学习(ITC)：双向Self-Attention Mask
基于图像的文本生成(ITG)：多模态Self-Attention Mask
图像-文本匹配(ITM): 单模态Self-Attention Mask

总结：

Q-Former:弥补冻结图像编码器和冻结LLM之间的差距,迫使查询提取与文本最相关的视觉信息

组成：两个transformer，一个和图片交互（Self-Attention），一个和文本交互（Self-Attention）,查询之间交互（Cross-Attention)

第一阶段：联合优化三个目标：——>以提取与文本最相关的视觉表示

图像-文本对比学习(ITC)、基于图像的文本生成(ITG)、图像-文本匹配(ITM)

第二阶段：不同任务使用不同的attention masking strategy控制查询-文本交互

配置：

BERTbase 预训练的权重初始化Q Former；交叉注意层是随机初始化的；

包含188M个参数；Q-Former隐藏层大小768；

32个查询（32×768）；查询输出用Z表示（32×768）；

多训练任务：ITC、ITG、ITM

图像-文本对比学习(ITC)

目标：对齐图像表征和文本表征，使交互信息最大化

实现：对比正对和负对的图像-文本相似性

Z与t对齐——（Z：图像转换器输出的query表征，t：文本转换器的文本表示，是[CLS]令牌的输出嵌入）
从Z中多个query中选出与t文本相似性得分最高的，作为图像-文本相似性。
采用unimodal self-attention mask——query和文本相互独立，不会泄露信息

基于图像的文本生成(ITG)

目标：被迫提取捕捉关于文本的所有信息的视觉特征。

不允许冻结图像编码器和文本标记之间的直接交互——>因此生成文本所需的信息必须首先由queries,提取，然后通过self-attention 层传递给文本标记。

采用multimodal causal self-attention mask 来控制查询-文本交互，类似于UniLM中使用的方法。
queries 之间可以相互关注，但不能关注 text tokens 。
每个 text token单方面关注queries 和它之前的text tokens。
用一个新的[DEC]标记替换[CLS]标记，作为the first text token，作为解码任务的信号。

图像-文本匹配(ITM)

目标：旨在学习图像和文本表示之间的细粒度对齐。

实现：二元分类任务，其中要求模型预测图像-文本对是肯定的(匹配的)还是否定的(不匹配的)。

我们使用bi-directional self-attention mask，所有的 queries 和texts 可以互相关注。
output query embeddings Z：通过bi-directional self-attention mask捕获多模态信息。
我们将每个Z 送到两类线性分类器中以获得一个logit，并将所有queries 的logit平均作为匹配分数输出。
采用李等人来创建提供信息的否定对。

-------------------------------------------------------------------------------------------------------------------------

总结：

图像-文本对比学习(ITC)：对齐图像表征和文本表征，使交互信息最大化，通过图像-文本相似性实现

基于图像的文本生成(ITG)：被迫提取捕捉关于文本的所有信息的视觉特征，不允许冻结图像编码器和文本标记之间的直接交互

图像-文本匹配(ITM)：图像和文本表示之间的细粒度对齐，预测图像-文本对是肯定的还是否定的

视觉到语言的生成学习

生成预训练阶段：获取LLM的生成语言能力

将Q Former(附带冻结图像编码器)——>冻结LLM

使用全连接(FC)层将Z线性投影到与LLM的文本嵌入相同的维度中。
投影的查询嵌入被加到输入文本嵌入的前面,起到软视觉提示的作用。
[Z线性投影，文本嵌入]——>根据Q-Former提取的视觉表示来调节LLM。

效果：

由于Q-Former已经被预先训练以提取语言信息视觉表示——>它有效地充当信息瓶颈，将最有用的信息馈送给LLM，同时移除不相关的视觉信息。
这减轻了LLM学习视觉语言对齐的负担，从而缓解了灾难性的遗忘问题

-------------------------------------------------------------------------------------------------------------------------

实验了两种类型的LLM:

基于解码器的LLM：[视觉表示]

使用文本生成损失进行预训练——>冻结的LLM的根据来自Q-Former的视觉表示生成文本

基于编码器-解码器的LLM：[视觉表示，前缀文本]

使用 prefix language modeling loss进行预训练，其中我们将文本分成两部分
prefix text与visual representation连接在一起——>LLM编码器
suffix text——>LLM解码器的生成目标,即生成文本。

-------------------------------------------------------------------------------------------------------------------------

总结：

生成预训练阶段：[文本生成能力]

[Z线性投影，文本嵌入]——>根据Q-Former提取的视觉表示来调节LLM。

Q-Former效果：

将最有用的信息馈送给LLM，同时移除不相关的视觉信息

减轻了LLM学习视觉语言对齐的负担，从而缓解了灾难性的遗忘问题

实验了两种类型的LLM：

基于解码器的LLM：[视觉表示]——>生成文本

基于编码器-解码器的LLM：[视觉表示，前缀文本]——>生成文本

模型预训练

模型预训练数据集：

        使用与BLIP相同的预训练数据集，总共有1.29亿张图像

        包括COCO 、Visual Genome 、CC3M、CC12M、SBU 、LAION400M[115M ]。

为网络图片生成字幕。

采用CapFilt方法为网页图像创建合成字幕：

用BLIPlarge字幕模型生成10个字幕
CLIP ViT-L/14模型产生的图像-文本相似性对合成字幕和原始web字幕进行排序。
保留每幅图像的前两个标题作为训练数据，并在每个预训练步骤中随机抽取一个。、

-------------------------------------------------------------------------------------------------------------------------

预训练的图像编码器和LLM：

对于冻结图像编码器，我们探索了两种最先进的预训练视觉变压器模型:

来自CLIP的ViT-L/14
来自EVA-CLIP的ViT-g/14

        删除了ViT的最后一层，并使用倒数第二层的输出特性——性能优化。

对于冻结语言模型：

        基于解码器的LLM的无监督训练的OPT模型族

        基于编码器-解码器的LLM的指令训练的FlanT5模型族

-------------------------------------------------------------------------------------------------------------------------

训练前设置

第一阶段预训练250k step，对ViT-L/ViT-g使用2320/1680的batch size
第二阶段80k step，对OPT/FlanT5使用1920/1520的batch size。
将冻结的vit和LLMs参数转换为FP16，但FlanT5除外，在flant 5中我们使用BFloat16。——>与使用32位模型相比，没有发现性能下降。
由于冻结模型的使用，本文的预训练比现有的大规模VLP方法在计算上更友好。

        例如，使用一台16-A100(40G)机器，带有ViT-g和FlanT5-XXL的最大的模型，第一阶段需要不到6天，第二阶段不到3天。

训练参数设置：

AdamW优化器，β1 =0.9，β1 =0.98，权重衰减为0.05。
使用余弦学习率衰减，峰值学习率为1e-4，线性预热为2k步。第二阶段的最小学习率是5e-5
使用大小为224×224的图像，并增加了随机调整大小的裁剪和水平翻转

总结：

模型预训练数据集：使用与BLIP相同的预训练数据集，总共有1.29亿张图像

采用CapFilt方法为网页图像创建合成字幕：10个生成+网络文本选相似度前二随机取用

预训练的图像编码器和LLM：

来自CLIP的ViT-L/14
来自EVA-CLIP的ViT-g/14

对于冻结语言模型：

基于解码器的LLM的无监督训练的OPT模型族
基于编码器-解码器的LLM的指令训练的FlanT5模型族

4.实验和结果分析

BLIP-2在各种Zero-Shot视觉语言任务中的性能:BLIP-2更高的性能，更小的训练参数

表1 各种Zero-Shot视觉语言任务的BLIP-2结果综述。

与以前最先进的型号相比。BLIP-2实现了最高的Zero-Shot性能，同时在视觉语言预训练期间需要最少数量的可训练参数。

Zero-Shot图像到文本的学习

任务：有效地使LLM能够理解图像，同时保留其跟随文本提示的能力

实现：用指令控制图像到文本的生成——>只需在可视提示后添加文本提示，作为LLM的输入。

图4 使用BLIP-2型号w/ViT-g和FlanT5XXL的指示Zreo-Shot图像到文本生成的选定示例，其中它显示了广泛的功能，包括视觉对话、视觉知识推理、视觉常识推理、讲故事、个性化图像到文本生成等。

Zero-shot VQA视觉问答

量化评估视觉问答任务：

OPT模型，我们使用提示“问题:{ }答案:”。

对于FlanT5型号，我们使用提示“问题:{ }简答:“”。

在生成期间，我们使用beam宽度为5的beam search。我们还将长度惩罚设置为-1，这鼓励更短的答案，更好地与人类注释保持一致。

表2：

BLIP-2在VQAv2 和GQA 数据集上取得了最先进的结果。
在VQAv2上比Flamingo80B高出8.7%，尽管可训练参数少了54倍。
在OK-VQA数据集上，BLIP-2次于Flamingo80B。

原因：

        假设这是因为OK-VQA更侧重于开放世界的知识而不是视觉理解，来自Flamingo80B pos的70BChinchilla 语言模型比11B FlanT5XXL拥有更多知识。

结论：更强的图像编码器或更强的LLM都会导致更好的性能，BLIP-2是一种通用的视觉语言预训练方法，可以有效地收获视觉和自然语言社区的快速进步

证据：

        (1)对于OPT和FlanT5，ViT-g都优于ViT-L。

        (2)在同一个LLM家族中，较大的模型优于较小的模型。

        (3)FlanT5，一个指令调整的LLM，在VQA上执行无监督训练的OPT

视觉语言表征学习的效果

第一阶段表征学习预先训练Q形成器来学习与文本相关的视觉特征，这减少了LLM学习视觉-语言对齐的负担。

在没有表征学习阶段的情况下，Q-Former仅仅依靠视觉到语言的生成学习来弥合通道鸿沟，这类似于Flamingo 中的感知者重采样器Perceiver Resampler 。

图5 视觉-语言表征学习对视觉-语言生成学习的影响。

        表征学习减少了LLM学习视觉-语言对齐的负担。

        没有表征学习，Q-Former无法弥合通道差距，导Zero-Shot VQA的性能明显下降

        特别是，OPT会遭受灾难性的遗忘，随着训练的进行，表现会急剧下降

图像字幕任务

微调了BLIP-2模型——为图像的视觉内容生成文本描述

用提示“的照片”作为LLM的初始输入，并训练模型生成具有语言建模损失的标题
在微调期间保持LLM冻结，并与图像编码器一起更新Q-Former的参数。
用ViT-g和各种LLM进行实验。
在COCO上执行微调，并在COCO测试集和到NoCaps 验证集的zero-shot transfer 上进行评估

结论：BLIP-2在NoCaps方面取得了超越现有方法的显著进步，显示了对域外图像的强大泛化能力

视觉问答任务

给定带注释的VQA数据，我们微调Q-Former和图像编码器的参数，同时保持LLM冻结。
对开放式答案生成损失进行了微调，其中LLM接收Q-Former的输出和问题作为输入，并被要求生成答案。

为了提取与问题更相关的图像特征，我们还对问题附加了Q-Former条件。

问题标记作为输入被提供给Q-Former，
通过自我注意层与查询进行交互——>引导Q-Former的交叉注意层关注更多信息的图像区域。

结论：表4. 与针对视觉问答进行微调的最先进模型进行比较，获得先进效果。

图文检索

图像-文本检索不涉及语言生成——>直接对第一阶段预训练的模型进行微调而不涉及LLM

使用与预训练相同的目标(即，ITC、ITM和ITG)微调图像编码器，使其与COCO上的Q-Former在一起
在COCO和Flickr30K 数据集上评估了图像到文本检索和文本到图像检索的模型。
在推论过程中，遵循李等人，其首先基于图像文本特征相似性选择k =128个候选，随后基于成对的ITM分数重新排序。

结论：

        对比最先进的图文检索方法，在COCO上微调，zero-shot转移到Flickr30K。

        BLIP-2实现了最先进的性能，与现有的Zero-Shot图像文本检索方法相比有了显著的改进

ITC和ITM损失对于图像-文本检索是至关重要的，因为它们直接学习图像-文本相似性

   ITG(基于图像的文本生成)损失也有利于图像-文本检索。其支持了在设计表征学习目标时的直觉——>ITG损失强制执行查询以提取与文本最相关的视觉特征，从而改善视觉语言对齐。

结论：基于图像的文本生成(ITG)损失通过强制查询提取语言相关的视觉特征来提高图像-文本检索性能。

总结：

Zero-Shot图像到文本的学习：显示了广泛的功能，包括视觉对话、视觉知识推理、视觉常识推理、讲故事、个性化图像到文本生成等
Zero-shot VQA视觉问答: 更强的图像编码器或更强的LLM都会导致更好的性能，BLIP-2是一种通用的视觉语言预训练方法，可以有效地收获视觉和自然语言社区的快速进步
视觉语言表征学习的效果：

表征学习减少了LLM学习视觉-语言对齐的负担。
没有表征学习，Q-Former无法弥合通道差距，导Zero-Shot VQA的性能明显下降

图像字幕任务结论: BLIP-2在NoCaps方面取得了超越现有方法的显著进步，显示了对域外图像的强大泛化能力
视觉问答任务结论：与针对视觉问答进行微调的最先进模型进行比较，获得先进效果
图文检索结论：

BLIP-2实现了最先进的性能，与现有的Zero-Shot图像文本检索方法相比有了显著的改进
基于图像的文本生成(ITG)损失通过强制查询提取语言相关的视觉特征来提高图像-文本检索性能。

5.限制

问题：当用上下文中的VQA例子提供LLM时，没有观察到VQA性能的改善——上下文学习能力的缺乏。

原因：预训练数据集每个样本仅包含单个图像-文本对。LLMs不能从中学习单个序列中多个图像-文本对之间的相关性。

解决方案：目标是在未来的工作中创建一个类似的数据集。

问题：图像到文本生成可能会产生令人不满意的结果，包括来自LLM的不准确知识、激活不正确的推理路径，或者没有关于新图像内容的最新信息(参见图6)。

原因：由于使用了冻结模型，BLIP-2继承了LLM的风险，如发布攻击性语言、传播社会偏见或泄露私人信息。

解决方案：使用指令来指导模型的生成，或者在有害内容被移除的过滤数据集上进行训练。

6.讨论

提出了BLIP-2

        一种通用的计算高效的视觉语言预训练方法，它利用了冻结的预训练图像编码器和LLM。
        在各种视觉语言任务上实现了最先进的性能，同时在预训练期间具有少量的可训练参数。
        还展示了Zero-shot指令图像到文本生成的新兴能力。我们认为BLIP-2是建立多模态对话式人工智能Agent的重要一步。

7.读后感

1.什么是Q-Former?

Q-Former，为LLM提供最有用的视觉表示

组成：两个transformer，一个和图片交互（Self-Attention），一个和文本交互（Self-Attention）,查询之间交互（Cross-Attention)

2.这篇文章的亮点在哪？

Q-Former提供有用视觉表示，移除无用视觉表示。

实现：多任务训练：ITC、ITG、ITM联合优化

效果：更高效、训练参数更少

3.作为一个高效的预训练方法，可以用在哪些地方？

视觉对话、视觉知识推理、视觉常识推理、讲故事、个性化图像到文本生成等

4.从本文中可以借鉴哪些思路？

Q-former本质相当于一个提注意力的机制，针对不同的任务，可以设计符合任务的Q-Former.

5.Q-Former的结构巧妙在什么地方？

注意力层和两个transformer,结构简单，但有效。不同的注意力策略设计：

图像-文本对比学习(ITC)：双向Self-Attention Mask

基于图像的文本生成(ITG)：多模态Self-Attention Mask

图像-文本匹配(ITM): 单模态Self-Attention Mask

6.本文除了Q-Former, 还有哪里是值得称赞的地方？

详细的实验对三个任务进行了详细的性能探讨。

庄园特聘拆椅狂魔

关注

26
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Model

由于大规模模型的端到端训练，视觉和语言预训练的成本变得越来越令人望而却步。本文提出了BLIP-2，一种通用和有效的预训练策略，它从现成的冻结预训练图像编码器和冻结大型语言模型启动视觉语言预训练。BLIP-2用一个轻量级的查询转换器弥合了通道之间的差距，该转换器分两个阶段进行预训练。第一阶段引导从冻结的图像编码器学习视觉语言表示。第二阶段从冻结的语言模型启动视觉到语言的生成学习。BLIP-2在各种视觉语言任务上实现了最先进的性能，尽管与现有方法相比，它的可训练参数少得多。例如，我们的模型在。
复制链接

扫一扫

专栏目录