BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

sweet_Mary

已于 2024-06-08 12:04:41 修改

阅读量941

点赞数 23

分类专栏：医学影像文章标签：人工智能深度学习计算机视觉

于 2024-06-08 12:04:10 首次发布

本文链接：https://blog.csdn.net/sweet_Mary/article/details/139544285

版权

5 篇文章 0 订阅

订阅专栏

背景

queries 相当于是图像embed的位置编码
Q-Former包含图像transformer和文本transformer
- query通过self-attention层与文本相互作用
- query通过cross-attention层与frozen图像特征相互作用
三种损失函数
- Image-Text Contrastive Learning
  - 学习对齐图像表征与文本表征，通过比较成对与非成对的图像-文本相似度实现
  - 计算image transformer输出query表征Z（与可学习query长度相同）与text transformer输出文本表征 t 中【CLS】token相似性，选取最大值作为图像文本对相似度。为防止信息泄露，作者使用单模态self-attention mask，query与text不能互相可见，防止从文本直接学习
  - Image-Text Matching
    - 学习精细化图像文本匹配
    - 使用bi-dirention self-atttention mask，所有query与text相互可见，因此输出的query embedding Z捕获多模态信息，Z通过二类线性分类器获取logit，logit均值为匹配得分
      - logits是神经网络输出的未经过归一化的概率，可以用于分类任务，而softmax或sigmoid是将logits转换为0到1的概率
  - Image-Grounded Text Generation
    - 根据输入图像输出文本
    - 文本生成所需信息通过query进行提取，通过self-attention进行传递至text token
      - query无法获取text token，当前text token 可获取所有query及其之前text token