《论文阅读笔记》VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix

Abstract

现有的视觉语言预训练(VLP)方法主要依赖于成对的图像-文本数据集,这些数据集要么由大量的人工标注,要么从互联网上爬取,然后使用复杂的数据清理技术。为了减少对对齐良好的图像文本对的依赖,有希望直接利用大规模的纯文本和纯图像语料库。
本文提出了一种数据增强方法,即跨模态CutMix (CMC),用于未配对VLP中的隐式跨模态对齐学习。
具体而言,**CMC将自然句子从文本视图转换为多模态视图,其中句子中基于视觉的单词被随机替换为具有相似语义的不同图像补丁。**拟议的CMC有几个吸引人的特点。首先,它增强了数据的多样性,同时保持语义的完整性,以解决对齐数据稀缺的问题;其次,通过在单模态数据上附加跨模态噪声,它指导模型学习跨模态的令牌级交互,以便更好地去噪。此外,我们提出了一种新的未配对VLP方法,称为VLMixer,它集成了CMC和对比学习,将单模态和多模态视图拉在一起,以更好地在不同模态之间进行实例级对齐。在五个下游任务上的大量实验表明,VLMixer可以超越之前最先进的未配对VLP方法。项目页面:https: //github.com/ttengwang/VLMixer

1.Introduction

现有VLP模型的成功主要来自手动标记和对齐良好的图像字幕数据集,如COCO 和Visual Genome ,以及高容量Transformer模型,具有有效的预训练目标,用于发现跨模态对齐。在主流的VLP方法中,跨模态对齐建模已被证明是有效的,可以为几个下游任务实现有前景的性能。在全球层面上,图像-文本匹配损失的设计用于指导模型判断输入图像和句子是否对齐。有了实例级对齐的保证,自注意层可以以隐式的方式进一步挖掘跨两种模式的输入标记之间的细粒度交互。
但由于注释大规模数据集的成本,这些方法在对齐良好的数据集上进行预训练的改进已经逐渐达到饱和。下面的作品通过引入弱对齐的图像标题对来缓解这个问题,这些图像标题对包含有噪声的注释,但易于获得和扩展。未配对视觉语言预训练(Li等人,2021b)进一步减轻了对配对图像标题数据的依赖,目的是从独立的图像和文本语料库学习多模态的表示。

没有跨模态对应的显式注释,未配对VLP面临着有效区分图像和文本之间对齐度的挑战。
之前的工作(Li et al, 2021b)利用共享编码器来学习联合表示空间,同时引入图像标记作为中间表示来连接两种形式。我们认为,图像标签不是复杂图像的可靠表示,因为排列不变性和缺乏语法结构使它们无法识别对象之间的视觉关系。这进一步损害了严重依赖图像和文本之间细粒度对齐的下游任务,如NL VR2 (Suhr等人,2018)和图像-文本检索。

对于跨模态的细粒度对齐,我们提出了跨模态的CutMix (CMC)来构建一种新的表示,“多模态句子”,以连接图像和文本,它不仅保留了句子的语言性质,而且还链接到图像中的视觉元素。用语义相同的图像块替换一些基础词,可以将自然句转化为自然句的多模态视图。为此,我们创建了一个视觉补丁库,其中包含来自纯图像数据集的各种视觉模式,其中由概念检测器检测和标记高质量的视觉补丁。如图1所示,剪切混合后的输入句子不仅保留了句法和语义信息,还引入了视觉标记作为跨模态噪声。结合“先掩模后预测”的训练目标,该模型有望学习输入标记之间的跨模态交互,以及“真实词”和图像补丁之间的标记级对齐。

此外,我们提出了一个对比学习框架,以充分利用模式之间的实例级对齐。对于输入的句子,CMC可以生成与语言视图具有相同语义的句子多模态视图。然后采用对比监督,将语义相似但观点不同的实例拉到一起,将语义不同的实例推离锚点。通过区分正样本和负样本,该模型可以判断不同模态输入之间的对齐。
我们的主要贡献总结如下:
1.我们提出了跨模态CutMix来构建一个多模态表示来连接图像和文本,指导模型在标记级别上学习跨模态对齐。
2.我们提出了基于CMC的跨模态对比学习,以促进未配对图像和文本之间的实例级对齐,其中语义相似的实例被拉近,不相似的实例被推开。
3.对不同下游任务的大量实验表明,我们的方法比以前的未配对VLP方法获得了更好的性能。

2.Related Work

2.1匹配的视觉-语言预训练。
2.2未匹配的的视觉-语言预训练。
2.3未匹配的图像标题
2.4数据增强

图2。在模型结构和token构造方面,比较现有方法和我们的框架。(A) V anilla风格方法(Chen et al, 2019;Tan & Bansal, 2019;Li等人,2019b)直接将视觉标记(对象或网格特征)与成对的语言标记作为输入连接起来。(B)奥斯卡式方法(Li et al, 2020b;Zhang等人,2021)利用对象检测器提取的图像标记,作为存在于视觉和文本数据中的锚点,以桥梁两种模式,以便更好地对齐学习。(C) U-VisualBERT (Li et al, 2021b)将oscar风格的输入扩展到未配对的VLP,并使用两个单独的分支来处理文本和图像数据。(D) VLMixer在文本中注入视觉补丁,形成“多模态句”,这被认为是连接两种模态的中间表示,因为它保留了原句子的句法结构,同时连接了不同的视觉模式。

3.VLMixer Pre-training

VLMixer包含两个并行的预训练分支,视觉辅助语言预训练(VALP)标记辅助视觉预训练(TAVP)。在VALP中,给定一个从纯文本数据集中采样的句子,我们采用跨模态剪切混合(cross-modal cutmix, CMC)来获得句子的多模态视图,并对其进行两个学习目标,掩模语言建模用于重建掩模输入,对比学习用于学习跨模态对齐。在TAVP中,给定从仅图像数据集中采样的图像,我们遵循(Li et al, 2020b)将图像标记和检测到的对象作为掩码标记建模的输入。下面,我们将分别在第3.1节j介绍CMC,在第3.2节介绍VALP和TAVP分支。

3.1Cross-Modal CutMix

对于fine-tuning,配对VLP中的输入(Tan & Bansal, 2019;Li等人,2020b)与下游任务中共享类似的格式:具有一致语义的视觉标记和文本标记的混合多模态序列。然而,没有显式对齐的未配对VLP在构建这样的多模态输入时带来了困难。直接将文本与随机图像组合在一起不仅失去了跨模态对齐,而且还引入了太多的噪声,这可能会淹没模态内标记之间的交互。
图1.交叉模态CutMix (CMC)的说明。通过将句子中的基础词随机替换为视觉标记,我们在不改变语义的情况下获得了不同的“多模态句”,但注入了跨模态噪声

本节提出了跨模态CutMix来构建不同的多模态序列,以减轻预训练和微调阶段之间的差异。
补丁长廊:我们首先从纯图像数据集中收集高质量对象区域的视觉补丁库及其概念标签。为此,使用现成的概念检测器(例如,Faster RCNN (Ren et al, 2015))来检测显著区域xi,并预测其概念标签wconi和相应的置信度cconi。我们将概念词汇表记为C。除了当前对象的概念外,我们还记录了“上下文概念”,即在同一图像中出现的其他区域的概念,记为{(wctxi,j, cctxi,j)},其中wctxi,j和cctxi,j表示第j个上下文概念及其置信度。带有概念的视觉补丁是visually-grounded,是连接图像和句子的锚点。我们将补丁库表示为:
在这里插入图片描述
将视觉补丁混合到句子中
给定从 文本语料库DT 中采样的句子T = {wn}Nn=1,我们的目标是在保留高级语义的情况下构建一个多模态序列。对于句子中同时出现在概念词汇wn∈C中的每一个(子)词,我们随机用概率为rcmc的图库中的一个视觉补丁替换它。目标可视补丁是从概念标签为wn的所有补丁中采样的。我们注意到,样本补丁不仅要准确匹配句子的整体语义,而且要具有多样化的模式,以增强泛化能力。这促使我们考虑句子整体语义的影响。我们根据以下的概率分布设计了一个上下文感知抽样。对于T中的概念(子)词wn,我们计算补丁库中所有项目被选中的概率。我们用q∼Norm({pi})从图库中采样补丁xq, pi被定义为:
在这里插入图片描述
其中Gi = T∩{wctxi,j}表示xi的句子和上下文概念之间的交集,Norm(·)将置信度{pi}归一化为概率分布。rctx控制上下文概念对抽样的重要性。CMC后的结果序列S可以表示为多模态符号的混合,如S = {w1, xq2, w3, xq4,…, wN},其中xqi表示第i个(子)字的采样补丁。

K-shot CMC 考虑到单个补丁只能显示概念(子)词的部分视图,我们提出了K-shot CMC,它收集了不同的补丁作为该概念的多个视图。具体来说,我们将wn替换为一组可能来自不同来源的补丁,通过重复采样过程K次。因此,生成的多模态符号S变成{w1, xq2(1),…, xq2(K) , w3, xq4(1) ,…xq4(K),…, wN}。

3.2. 视觉辅助语言预训练

VALP侧重于借助可视化补丁库从文本语料库进行跨模态学习。与U-VisualBERT (Li et al, 2021b)仅对纯文本数据采用单模态表示学习不同,我们通过蒙面语言建模构建多模态输入,以有效地利用多模态融合,通过对比学习构建跨模态对齐。VALP的详细说明如图3所示。
图3。视觉辅助语言预训练。给出一个句子样本,我们随机擦除句子中的一些概念词,然后粘贴带有相同概念标签的视觉补丁,得到混合句子,作为原句子的跨模态视图。跨模态学习提出了两个目标:首先,蒙面语言建模旨在学习去噪表示,这鼓励两个模态之间的令牌级对齐;与配对VLP方法中使用的对比学习不同(Li等人,2020a;2021a),配对图像在我们的设置中不可用。本文提出的CMC后的文本和文本对比度可视为成对VLP中文本图像对比度的代理任务。
首先将输入句子T转换为子词{[CLS], w1, w2,…, wN, [SEP]}通过小写字节对编码(BPE) (Sennrich等人,2015),其中[CLS]和[SEP]分别表示子字序列的开始和结束标记。我们使用跨模态CutMix来获得跨模态视图S, S中每个patch token的表示是概念检测器产生的区域特征。然后将S输入变压器编码器(V aswani et al, 2017),通过注意层学习跨模态交互。输出特征向量[CLS]代表S的全局表示。

掩码语言建模(MLM)
我们使用掩蔽策略类比BERT (Devlin等人,2019)。我们以15%的概率随机屏蔽S中的每个语言令牌。对于每个补丁令牌,我们在序列中添加掩码令牌,以指示发生CMC替换的位置。
这些掩码标记收集信息上下文特征,以恢复在同一位置损坏的概念词。我们将屏蔽输入标记为Smask。我们在图4中提供了一个例子来说明S和Smask的区别。
MLM的目标是通过两种类型的损坏,即CMC引入的跨模态噪声和掩蔽机制引起的损坏来重建原始文本。
因此,该模型可以有效地聚合上下文信息,并学习视觉标记和语言标记之间的标记级对齐。MLM的目标是最小化重构序列S^ (S hat)的负对数似然:
在这里插入图片描述
在这里插入图片描述

交叉模式对比学习(CMCL)
成对VLP的常见做法是图像-文本匹配任务(Chen等人,2019;Li等人,2020b),其中构建正/负样本,即配对/未配对输入,并训练模型来区分输入图像和文本是否具有相似的语义。显然,构建这样的正对需要良好对齐的数据,因此对于未配对的VLP是不可用的。尽管为给定的文本找到语义相似的图像很困难,但我们建议通过CMC构建一个与文本含义匹配的中间表示。
给定一个包含随机文本集的训练批,我们将它们与它们的CMC增强进行对比学习,表示为{(T1, S1),···,(TM, SM)}。对于锚实例Tm,我们选择Sm作为正实例,批处理中的其余对作为负实例{Sl}l≠m。对比损失计算公式为:
在这里插入图片描述
其中Tmaskm和Smaskl是Tm和Sl的掩码序列,f(Tmaskm, Smaskl)表示度在Tmaskm和Smaskl各自的[CLS]令牌上的输出特征之间的余弦相似。τ是温度比。
请注意,我们的方法不同于现有的对比学习方法(Radford等人,2021;Li等人,2021a)成对VLP的原因有两个:1)在他们的模型中使用的成对图像在我们的设置中不可用;2)提出的单模态样本与多模态样本的对比,与两个单模态样本的对比相比,有利于多模态融合。

3.3. 标签辅助视觉预训练

TAVP主要关注从纯视觉数据中挖掘多模态知识。受李等人的启发(2021b),我们使用图像标签(概念)作为连接视觉和语言的锚点,因为它们是从图像中检测到的,但在语言学习中也起着重要的作用。
具体地说,从图像集DI中给定一个图像I,利用预先训练的概念检测器来预测一些图像区域及其标记。区域令牌和标签令牌被串联为图像Q = (I, Det(I)) 的多模态表示,其中**Det(I)**表示标签令牌的序列。

我们采用了类似于OSCAR的图像和标记标记的掩模-预预测预训练(Li et al, 2020b)。每个标记标记被随机屏蔽,概率为15%。然后,将屏蔽后的输入Qmask输入到变压器中,计算输出序列Q的重构损耗:
在这里插入图片描述

3.4. 培养目标

总体培训目标定义如下:
在这里插入图片描述
这是掩码语言建模损失、对比损失和掩码标签建模损失的总和。在每次迭代中,我们抽取一小批图像和一小批文本进行损失计算。算法1总结了详细的预训练过程。

在这里插入图片描述

4.实验

为了公平的比较,我们首先遵循未配对视觉语言(VL)任务的标准实践(Li et al, 2021b;Feng等人,2019)评估模型在没有对齐信息的配对VL数据集上的性能。接下来,我们展示了VLMixer可以受益于从不同来源独立收集的大规模图像或文本。最后,我们对重要的设计选择进行了消融研究,以证明VLMixer的有效性。
在这里插入图片描述
在这里插入图片描述

5.Conclusions

这篇文章提出了一种新的未配对视觉语言预训练方法VLMixer。与传统的使用标签作为锚点来连接两种模态的方法不同,我们提出通过跨模态CutMix构建文本句子的跨模态视图。通过这样做,可以在不改变语义的情况下在很大程度上增加多模态数据的多样性。此外,为了在实例级上实现更好的对齐学习,我们在多模态句上建立了对比学习目标,将语义相似的实例拉在一起,将语义不相似的推远。在五个下游任务上的实验表明,我们的方法在未配对VLP中达到了最先进的性能。通过对CMC设计选择和对比学习的研究,验证了所提模型的有效性。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一颗2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值