推荐视频:【多模态学习 BLIP2的前世与今生】ALBEF, BLIP和BLIP2全系列工作串讲_哔哩哔哩_bilibili
背景
- 训练大尺度视觉语言预训练模型成本比较高------利用frozen预训练视觉及语言模型
- BLIP-2主要研究的是Querying Transformer(Q-Former),用来缩小模态之间gap
- 框架图
- Q-Former包含两个部分(对照图片来看很清晰)
- 从冻结图像编码器学习视觉语言表征
- 基于冻结语言模型,进行视觉到语言生成学习
- Q-Former包含两个部分(对照图片来看很清晰)
- BLIP-2可以根据提示进行zero-shot图像到文本生成
模型
- queries 相当于是图像embed的位置编码
- Q-Former包含图像transformer和文本transformer
- query通过self-attention层与文本相互作用
- query通过cross-attention层与frozen图像特征相互作用
- 三种损失函数
- Image-Text Contrastive Learning
- 学习对齐图像表征与文本表征,通过比较成对与非成对的图像-文本相似度实现
-
计算image transformer输出query表征Z(与可学习query长度相同)与text transformer输出文本表征 t 中【CLS】token相似性,选取最大值作为图像文本对相似度。为防止信息泄露,作者使用单模态self-attention mask,query与text不能互相可见,防止从文本直接学习
- Image-Text Matching
- 学习精细化图像文本匹配
- 使用bi-dirention self-atttention mask,所有query与text相互可见,因此输出的query embedding Z捕获多模态信息,Z通过二类线性分类器获取logit,logit均值为匹配得分
- logits是神经网络输出的未经过归一化的概率,可以用于分类任务,而softmax或sigmoid是将logits转换为0到1的概率
- Image-Grounded Text Generation
- 根据输入图像输出文本
- 文本生成所需信息通过query进行提取,通过self-attention进行传递至text token
- query无法获取text token,当前text token 可获取所有query及其之前text token
- Image-Text Contrastive Learning
- 学习视觉到语言生成由两种方式
- 一种是Q-Former生成的特征(全连接层)
- 一种是Q-Former生成的特征(全连接层)+前半部分text