Preserving Semantic Neighborhoods for RobustCross-modal Retrieval

Preserving Semantic Neighborhoods for RobustCross-modal Retrieval

1 Introduction

现存的的跨模态检索方法依赖于各种度量学习损失,这些损失规定了图像和文本在学习空间中的接近程度。然而,大多数先前的方法都集中在图像和文本传达冗余信息的情况下;相比之下,现实世界的图像-文本对传达的互补信息几乎没有重叠。此外,新闻文章和媒体中的图像以视觉上多样化的方式描绘主题;因此,需要特别注意以确保有意义的图像表示。本文提出了新的模态内损失,促使文本和图像子空间中的语义一致性,但是不一定与视觉一致性保持一致。本文的方法不仅确保配对的图像和文本接近,而且还观察到预期的图像-图像和文本-文本关系。与五个基线相比,本文的方法改进了四个数据集的跨模态检索结果。

如图所示。像COCO这样的标题数据集包含图像和文本重叠显著的样本(图像和文本都提到或显示相同的对象)。在这种情况下,跨模态检索意味着在两种模式中找到单一概念的表现(例如学习嵌入,使单词“香蕉”和“香蕉”的像素在学习空间中靠近)。

相比之下,现实世界的新闻文章包含了具有相同主题的图像和文本对,但显示了互补的信息(抗议标志vs关于特定事件的信息;枪支与权利讨论;彩虹旗vsLGBT权利)。虽然人类仍然可以猜出哪些图像与文本一致,但图像和文本之间的对齐是抽象的和象征性的。此外,新闻文章中的图像被孤立地显得模棱两可。

image-20211219202710250

2 Method

image-20211219202628180

D = { I , T } D=\{I,T\} D={I,T}为一个文本对, I = { x 1 , x 2 , . . . , x n } , T = { y 1 , y 2 , . . . , , y n } I=\{x_1,x_2,...,x_n\},T=\{y_1,y_2,...,,y_n\} I={x1,x2,...,xn},T={y1,y2,...,,yn}

在训练时,期望检索一个给定输入图像的真值对应的文本,反之亦然。一种常见的技术是Triplet Loss,它假定成对的样本应该比非成对的样本更接近彼此。设 T = ( x i a , y i p , y j n ) T=(x_i^a,y_i^p,y_j^n) T=(xia,yip,yjn)表示有锚点 ( a ) (a) (a),正对 ( p ) (p) (p),负对 ( n ) (n) (n)

image-20211219203512438

这种损失可能是跨模态检索任务中最常见的一种,但也有一些缺陷。例如,triplet loss的梯度wrt,每一点只考虑两点,而忽略了它们与第三点的关系,如:

image-20211219203657300

所以Angular Loss考虑了所有三个点的角关系:

image-20211219203751638

其中 C i = ( x i a + y i p ) / 2 C_i=(x_i^a+y_i^p)/2 Ci=(xia+yip)/2,为以锚点和正对的圆的中心。

这些损失的一个具有挑战性的方面是在三组中选择一个好的负项。如果负值离锚点太远,损失将变为0,没有学习发生。相反,如果负极选择得太近,模型可能难以收敛到一个合理的解决方案,因为它不断地试图移动样本,以避免与负极重叠。所以又有N-Pair Loss:

image-20211219204021374

对称约束也可以添加来显式地解释双向检索,即文本到图像,通过交换图像和文本的作用来形成对称的三联体:

image-20211219204059052

本文在上述工作的基础上,制定了两个损失函数来加强模态内语义局部性。第一个,Text Loss,用来强制文本投影的局部性:

image-20211219204233712

同样的对于图像模态:

image-20211219204305194

最后,再添加一个如式(4)的对称损失,给予权衡参数,得到:

image-20211219204510682

3 Conclusion

image-20211219204611790

由图所示,将此损失施加在PVSE模型上进行跨模态检索,效果相比之前有略微提升,如果通过调参可能能得到更好的收益。本损失可以作为一个基本模块加入框架之中,增加框架的完备性。但迁移到哈希模态的实验还没有进行,准备下周开始编写代码实验。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值