Align before Fuse: Vision and LanguageRepresentation Learning with Momentum Distillation (BLIP的前身工作)

发表时间:NeurIPS 2021

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=2424337814218433280&noteId=2424337934527345920

作者单位:School of Computer Science, Peking University

Motivation:大规模视觉和语言表示学习在各种视觉语言任务中都显示出有希望的改进。大多数现有方法采用transformer-based multimodal encoder联合建模视觉标记(基于区域的图像特征)和单词标记。由于视觉标记和单词标记未对齐,多模态编码器学习图像-文本交互具有挑战性

解决方法:在本文中,我们引入了一种对比损失(还有另两个损失MLM和图文匹配任务ITM,但是不是本文提出来的,本来就有),通过跨模态注意将它们融合 (ALBEF) 之前的图像和文本表示 ALign,从而实现更ground的视觉和语言表示学习。为了提高从嘈杂的网络数据中学习,我们提出了动量蒸馏,这是一种从动量模型产生的伪目标中学习的自我训练方法。

动量蒸馏具体是怎么做的?

用于预训练的图文对大多是从网络上收集的,噪声较大。正样本对通常是弱相关的:文本可能包含与图像无关的单词,或者图像可能包含文本中未描述的实体。 对于ITC学习,图像的负文本也可能与图像的内容相匹配。对于MLM,可能存在与注释不同的其他词,它们对图像的描述同样好(或更好)。然而,ITC和MLM的单一标签惩罚所有负面预测,无论其正确性如何。为了解决这个问题,我们提出向动量模型产生的伪目标学习。动量模型是一个不断进化的教师,它由单模和多模编码器的指数移动平均版本组成。在训练期间,我们训练基本模型,使其预测与动量模型中的预测相匹配。

我们从互信息最大化的角度对ALBEF进行了理论分析(不仅有模型结构,还有理论分析,不错),表明不同的训练任务可以解释为为图像-文本对生成视图的不同方法。这句话中的mutual information maximization(互信息最大化)指的是一种利用互信息(mutual information)来分析和优化模型的观点。具体来说,互信息是衡量两个变量之间相互依赖关系的度量。互信息最大化的目标是通过最大化这种依赖关系,从而使得模型能够更好地理解和关联图像和文本之间的信息。也就是说,通过最大化图像和文本对之间的互信息,可以让模型学习到更有意义的表示和关联,从而提升任务的效果。

实现方式

ALBEF结构:它由一个图像编码器、一个文本编码器和一个多模态编码器组成。我们提出了一种图像-文本对比损失来对齐融合前图像-文本对的单峰表示。应用图像-文本匹配损失(一个batch内的正负样本)和掩码语言建模损失来学习图像和文本之间的多模态交互。为了提高噪声数据的学习,我们在训练期间使用动量模型(基础模型的移动平均版本)作为附加监督生成伪目标。

LBEF的模型架构图,典型的双流多模态多模态模型,首先文本和图像的词嵌入和pixel嵌入,再分别经过text encoder和image encoder得到各自编码器的处理输出,之后先做ITC(即就是对比学习)前提是一点,先把两个不同模态的数据映射到同一个共享的空间,在代码中的体现就是分别通过一个线性层将其转化为同一个维度和空间的特征:

self.vision_proj = nn.Linear(vision_width, embed_dim) # 将图像特征做线性映射

self.text_proj = nn.Linear(text_width, embed_dim) # 将文本特征做线性映射

预训练目标:单峰编码器上的图文对比学习ITC,多模态编码器上的掩码语言建模MLM和图文匹配任务ITM。

包括三个部分:

  1. (ITC)损失:单模态编码器的表示上引入了中间图像文本对比(ITC)损失,目的是在融合前更好地学习单模态表征:(1)它对齐图像特征和文本特征,使多模态编码器更容易执行跨模态学习;(2)改进了单模态编码器,以更好地理解图像和文本的语义;(3)它学习一个共同的低维空间来嵌入图像和文本,这使得图像文本匹配目标能够通过我们的对比硬负挖掘找到更多信息样本。

  2. Masked Language Modeling利用图像和上下文文本来预测掩码单词。我们以 15% 的概率随机屏蔽输入标记,并将其替换为特殊标记 [MASK]。MLM最小化屏蔽文本token预测和真实token之间的交叉熵。

  3. Image-Text Matching预测一对图像和文本是正(匹配)还是负(不匹配)。我们使用多模态编码器的 [CLS] 标记的输出embedding作为图像-文本对的联合表示,并附加一个全连接(FC)层,然后是 softmax 来预测二类概率。

实验:可以完成各种Downstream V+L Tasks:包括Image-Text Retrieval,Visual Entailment(视觉蕴含:是一个细粒度的视觉推理任务,用于预测图像和文本之间的关系是蕴涵、中性或矛盾的),Visual Question Answering,Natural Language for Visual Reasoning(即NLVR2,要求模型预测文本是否描述了一对图像),Visual Grounding(视觉定位旨在定位图像中与特定文本描述相对应的区域。)

可以使用模型的不同结构完成不同任务:

  • 视觉问答(VQA)使用6层transformer解码器来生成答案[解码器]

  • 用于视觉推理的自然语言(NLVR2)要求模型预测的文本是否描述了一对图像。我们扩展了我们的多模式编码器,使其能够对两幅图像进行推理。多模式编码器的每一层被复制为具有两个连续的transformer块,其中每个块包含一个自注意力层、一个交叉注意力层和一个前馈层。

结论:本文提出了 ALBEF,这是一种用于视觉语言表示学习的新框架。ALBEF首先将单模态图像表示和文本表示对齐,然后将它们与多模态编码器融合。提出了 image-text contrastive learning(实际上是三种损失) and momentum distillation,这个momentum distillation有点意思。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming_Chens

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值