基于一致多模态对比训练的高效标记引导图像-文本检索
摘要
以前:简单地学习整体图像和文本的粗粒度表示,要么精心建立图像区域或像素与文本单词之间的对应关系。
问题:忽视了每种模态的粗粒度表示和细粒度表示之间的密切关系。
本文:将粗粒度和细粒度表示学习结合到一个统一的框架中,从一个新的角度解决图像文本检索问题
TGDT架构:由图像和文本模式的两个同构分支组成,一致性多模态对比损失。
1 介绍
图像-文本检索包括两个密切相关的任务:文本到图像检索和图像到文本检索。
文本到图像检索:旨在从图像候选集中选择与给定文本最匹配的图像。
图像到文本检索:试图在文本候选集中找到最能描述图像的句子。
文本-图像检索要做的就是目的是基于图像和文本之间基于内容的语义相似性进行匹配。
粗粒度检索只是根据图像和文本的全局表示计算它们之间的全局相似度。
细粒度检索:研究视觉和语言局部对应关系,采用注意力机制来协调两种模式,使用交叉注意来动态对齐每个元素和其他模态的元素
本文贡献:
1.提出了标记引导双转换器(TGDT)来实现高效的图像-文本检索。以往的粗粒度检索方法和细粒度检索方法很难达到良好的准确性和效率的平衡,因为粗粒度检索方法只具有高效率,细粒度检索方法只具有高精度。
全局特征从整体角度描述图像和句子,局部特征自动对齐,建立图像区域和文本词之间的联系
2.提出了一种新的一致性多模态对比(CMC)损失来保证图像-文本对之间全局距离的一致性。CMC损失由两个中心部分组成,分别在不同模态之间和同一模态内进行对比学习。
3.最后,基于学习到的全局表示和局部表示,利用不同的推理策略,提出了一种快速有效的图像文本检索两阶段推理方法。
2 相关工作
以往的工作主要从三个方面解决跨模态的图像-文本检索问题:
1)粗粒度检索方法通过将两种异构模态映射到一个共同的嵌入空间,直接计算输入图像和全文之间的全局相似度;(全局对应学习方法:将整个图像和文本投影到一个共同的潜在空间,可以将文本和图像统一为相似的表示。)
缺点:它们不能对对象实例和语言标记之间的细粒度交互进行建模,并且检索性能大致有限,特别是对于复杂图像和长句子。
2)细粒度匹配方法通过探索图像建议和文本片段的细粒度跨模态对应关系,自动对齐图像建议和文本片段;(局部对应学习方法:学习局部区域与单词的对应关系。)
缺点:尽管这些方法表现良好,但它们的推理速度非常慢,并且在实际应用中大多不切实际。
3)视觉语言预训练(VLP)方法另外使用外部数据或知识来源来训练VLP模型,以学习更好的表示
3 方法

图像编码器首先使用Faster R-CNN生成图像实例的位置及其对应的特征和输入图像的全局图像级特征。
然后将这些标记表示通过变压器编码器传递以获得跨模态表示。
文本编码器首先使用BERT为每个文本样本生成词级和句子级特征,然后通过另一个转换编码器生成相应的语言表示。
全局检索直接匹配图像整体特征和句子级文本特征,局部检索在图像实例特征和文本词级特征之间进行标记级对齐后获得跨模态相似度。在训练过程中,提出的一致性多模态对比训练(CMC)损失同时训练两个网络。在推理过程中,采用基于全局相似度和局部相似度的两阶段推理方法,既准确又高效。
3.1基于变换的跨模态表示学习
Faster RCNN检测器:生成r个描述对象的图像建议
v0:图像全局信息;vi:图像局部信息
使用一个transformer来处理图像区域的全局局部特征,其中transformer由四层相同的标准变压器编码器组成,每层由多头自关注机制和全连接前馈算子组成。
3.2图像文本检索的全局检索和局部检索
通过bert为包含w个词的句子生成+1个标记,其中l0代表句子的全局表示,li代表每个单词的局部表示。使用基于transformer的文本编码器进行全局局部检索。
全局检索:
全局跨模态相似度为:

局部检索:
想要对齐两个样本,首先先计算各个样本之间的相似性。

然后,将相似度最大的两个来自不同模态的元素对齐。
局部相似度定义:

3.3一致多模态对比(CMC)训练损失
多模态一致性对比损失方法,该方法在训练过程中结合了模态内和模态间的排序损失。
优点 :减少匹配的图像-文本对之间的距离,并拉开不匹配的图像-文本对,而且考虑了相同模态样本之间的关系。
在多模态对比损失中,the triplet ranking loss 被经常使用

使得负对的跨模态距离大于正对的距离
Consistent Multimodal Contrastive Loss :
想法:将匹配的图像-文本对是为一个紧凑的样本,并试图确保不同对之间的全局距离一致性。

CMC损失:

可以保证两对样本的同模态距离和跨模态距离一致,并且保证同一对匹配样本之间的连接紧密。
Lr控制样本之间的距离。另一方面,La保证了匹配样本之间距离的一致性。
4 实验
采用:Flickr30K和COCO两个数据集

不同模型在与最先进的flickr30k数据集的比较。符号g和l分别表示粗粒度和细粒度检索方法

不同模型在COCO 1K数据集上的比较

不同模型在COCO 5K数据集上的比较

在flickr30k数据集上与视觉语言预训练模型的比较




σ对粗粒度和细粒度检索的影响。CMC损失函数中的松弛参数σ
我们可以看到,当σ = 0.3时,文本到图像的检索和图像到文本的检索都达到了最佳性能。当σ < 0.3时,检索精度随σ的增大而单调增加。

在Flickr30K数据集上不同θ和Top-K下的检索结果。

不同的方法在不同数据集上的推理时间
5 结论
1.提出了一种用于图像文本检索的标记引导双变换(TGDT)架构和一致多模态对比(CMC)损失。
2.TGDT在标记级跨模态对齐的指导下促进快速学习图像-文本检索模型。
3.CMC损失保证了多模态样本之间局部和全局相似性的一致性。

964

被折叠的 条评论
为什么被折叠?



