BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

参考:BLIP2-图像文本预训练论文解读-CSDN博客

推荐视频:【多模态学习 BLIP2的前世与今生】ALBEF, BLIP和BLIP2全系列工作串讲_哔哩哔哩_bilibili

背景

  • 训练大尺度视觉语言预训练模型成本比较高------利用frozen预训练视觉及语言模型
  • BLIP-2主要研究的是Querying Transformer(Q-Former),用来缩小模态之间gap
  • 框架图
    • Q-Former包含两个部分(对照图片来看很清晰)
      • 从冻结图像编码器学习视觉语言表征
      • 基于冻结语言模型,进行视觉到语言生成学习
  • BLIP-2可以根据提示进行zero-shot图像到文本生成

模型

 

  • queries 相当于是图像embed的位置编码 
  • Q-Former包含图像transformer和文本transformer
    • query通过self-attention层与文本相互作用
    • query通过cross-attention层与frozen图像特征相互作用
  • 三种损失函数
    • Image-Text Contrastive Learning
      • 学习对齐图像表征与文本表征,通过比较成对与非成对的图像-文本相似度实现
      • 计算image transformer输出query表征Z(与可学习query长度相同)与text transformer输出文本表征 t 中【CLS】token相似性,选取最大值作为图像文本对相似度。为防止信息泄露,作者使用单模态self-attention mask,query与text不能互相可见,防止从文本直接学习

      • Image-Text Matching
        • 学习精细化图像文本匹配
        • 使用bi-dirention self-atttention mask,所有query与text相互可见,因此输出的query embedding Z捕获多模态信息,Z通过二类线性分类器获取logit,logit均值为匹配得分
          • logits是神经网络输出的未经过归一化的概率,可以用于分类任务,而softmax或sigmoid是将logits转换为0到1的概率
      • Image-Grounded Text Generation
        • 根据输入图像输出文本
        • 文本生成所需信息通过query进行提取,通过self-attention进行传递至text token
          • query无法获取text token,当前text token 可获取所有query及其之前text token

​​​​

  •  学习视觉到语言生成由两种方式
    • 一种是Q-Former生成的特征(全连接层)
    • 一种是Q-Former生成的特征(全连接层)+前半部分text
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值