【多模态论文】BLIP-2

BLIP-2提出了一种通用且高效的预训练策略,通过结合冷冻的图像编码器和语言模型,解决视觉文本预训练中的模态差距问题。它使用QFormer进行两阶段训练,减少了计算成本,同时保持了零-shot图像到文本生成的能力。
摘要由CSDN通过智能技术生成

论文:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
链接:https://arxiv.org/abs/2301.12597

摘要

  1. Motivation:近些年Vision-language pre-training (VLP) 飞速发展,越来越多更大的预训练模型涌现不断更新各种下游任务的sota结果。但是这些模型需要很高的计算成本,包括大规模的预训练数据和模型结构。
  2. 核心问题:cross-modal alignment,并且文中认为Flamingo的image-to-text generation loss不足以bridge the modality gap
  3. 方案:一种可以从现有的冷冻的图像预训练编码器和冷冻的语言模型引导视觉文本预训练的通用且有效的方法(A generic and efficient pretraining strategy that bootstraps vision-language pre-training from off-the-shelf frozen pre-trained image encoders and frozen large language models)。
    • 对于解决模态间的gap,两阶段训练一个轻量级的Querying Transformer(QFormer),使用可学习query抽取视觉特征,充当两个冷冻模块间的信息瓶颈。
    • 第一阶段冷冻图像编码器引导视觉文本的表征学习(vision-language representation learning),提供高质量视觉表征
    • 第二阶段冷冻语言编码器引导视觉到文本生成学习(vision-to-language generative learning),提供很强的语言生成能力以及zero-shot迁移能力
      这种冷冻训练单模态的方式,优势在于减少计算开销以及抵消灾难性遗忘的问题
  4. 优势:非常少量的可训练参数(54x fewer trainable parameters than Flamingo80B),拥有遵循自然语言指令的zero-shot image-to-text generation 的新兴能力。
    在这里插入图片描述

方法

  1. Q-Former介绍
    Q-Former由两个Transformer的模块构成:
    • 一个与冷冻的图像编码器交互的图像Transformer
    • 一个既可以充当编码器又可以充当解码器的文本Transformer
      在图像Transformer的输入是一系列可学习的query向量,这些向量先进行self-atention,再与每个block的图像向量进行cross-attention计算。值得注意的是,这些self-attention与文本侧的self-attention共享参数(The queries can additionally interact with the text through the same self-attention layers),并且使用不同的attention mask控制query-text交互。用BERT-base初始化Q-Former的参数,cross-attention随机初始化,整个结构共188M参数(包括queries,32个768h)。
      Q-Former的作用:在预训练目标的作用下强制这些queries抽取与文本更相关的视觉信息。
      在这里插入图片描述
  2. 训练第一阶段,即表示学习阶段:Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder,使用相同的输入和参数训练三个预训练目标,只是attention mask不同控制queries和文本的交互。
    • Image-Text Contrastive Learning(ITC):对齐视觉表示和文本表示,query的每个表示都会和文本【CLS】表示计算相似度,这些结果中取最大值作为最终图像文本相似度。使用单模态的self-attention mask防止queries和文本互相看到。由于冷冻图像编码器所以可以训练更多样本,因此使用in-batch negatives而不是BLIP中的momentum queue。
    • Image-grounded Text Generation (ITG) :在给定图像的条件下训练Q-Former生成文本。文中提到,由于image encoder结果不与文本直接交互,导致迫使queries学习与文本相关的视觉信息。这一阶段使用multimodal causal self-attention mask,queries可以看到彼此但看不到文本,每个文本可以看到queries和之前的文本,并将【CLS】换成【DEC】做解码任务。
    • Image-Text Matching (ITM):细粒度对齐图像和文本表示,二分类问题。attention不做mask,判断图像和文本是positive(match)还是negtive(unmatch),在输出端取每个query和文本的打分均值作为最终score。
  3. 训练第二个阶段,生成:Bootstrap Vision-to-Language Generative Learning from a Frozen LLM
    在这里插入图片描述
    • 目标:连接Q-Former和LLM来挖掘LLM的语言生成能力。使用FC层将query embedding映射到与大模型text embedding相同的维度,作为soft visual prompts,前向拼接到文本embedding上。
    • 作用:由于Q-Former已经通过预训练阶段抽取语言信息视觉表示,所以作为一个information bottleneck,删除了不相关的视觉信息,将最有用的信息提供给LLM。减少视觉语言对齐的问题,缓解灾难性遗忘。

模型训练

  1. 预训练的数据:129M图片,采用CapFilt方式为其创建caption,用BLIP-large captioning model生成10条标题,并用CLIP ViT-L/14计算图片文本相似度,训练数据取前两条caption,每个step随机选择一条。
  2. 使用的模型:
    • 图像编码器:CLIP中的ViT-L/14 and EVA-CLIP中的ViT-g/14。去掉ViT的最后一层,使用最后第二层的特征。
    • 语言编码器:Decoder-based model使用unsupervised-trained OPT model familys,Encoder-Decoder-based model使用instruction-trained FlanT5。decoder-based方法直接将query作为输入生成文本,Encoder-Decoder-based方法将文本拆分为两部分,一部分和query拼接作为模型输入,一部分作为生成目标。
  3. 训练配置:250k + 80k step;bs=2320/1680 for ViT-L/ViT-g + 1920/1520 for OPT/FlanT5;“+”前面是第一阶段训练,后面是第二阶段训练。16-A100(40G) 6day+3day,图像大小224*224,使用随机裁剪与水平翻转增强。

实验

  1. 整体实验,参数更少,效果更好
    在这里插入图片描述
  2. zero-shot image-to-text capabilities
    输入形式为:OPT prompt “Question: {} Answer:”,FlanT5 prompt “Question: {} Short answer:”,使用length-penalty to -1鼓励更短的回答。

在这里插入图片描述

  1. A stronger image encoder or a stronger LLM both lead to better performance
    在这里插入图片描述
  2. 验证表示学习的有效性,直接端到端训练效果不好
    在这里插入图片描述
  3. 在caption任务上的效果,prompt “a photo of”,在微调阶段,COCO数据集,冷冻LLM,更新图像编码器与q-former的参数。前面实验都是zero-shot
    在这里插入图片描述
  4. VQA,与上面同样的微调方式,但是为了更好的回答问题,将question同样输入在self attention 中q-former与queries交互。
    在这里插入图片描述
  5. Image-Text Retrieval,没有使用第二阶段的预训练,(finetune the image encoder together with Q-Former on COCO using the same objectives (i.e. ITC, ITM, and ITG) as pre-training. W),first select k = 128 candidates based on the image-text feature similarity, followed by a re-ranking based on pairwise ITM scores.
    在这里插入图片描述
    ITG对检索任务也有增益。
    在这里插入图片描述
  6. BLIP-2 的实验在为 LLM 提供上下文 VQA 示例时没有观察到改进的 VQA 性能。LLM 无法从中学习单个序列中多个图像-文本对之间的相关性。Flamingo 论文也报告了相同的观察结果,该论文使用紧密来源的交错图像和文本数据集 (M3W),每个序列具有多个图像-文本对。
    由于冻结模型的使用,BLIP-2 继承了 LLM 的风险,例如输出攻击性语言、传播社会偏见或泄露私人信息。补救方法包括使用指令来指导模型的生成或在删除有害内容的过滤数据集上进行训练。
  • 21
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值