Preserving Semantic Neighborhoods for RobustCross-modal Retrieval

最新推荐文章于 2024-08-24 11:01:02 发布

鄙人不善奔跑

最新推荐文章于 2024-08-24 11:01:02 发布

阅读量208

点赞数

分类专栏：跨模态文章标签：计算机视觉深度学习机器学习

本文链接：https://blog.csdn.net/qq_39400568/article/details/122065699

版权

跨模态专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Preserving Semantic Neighborhoods for RobustCross-modal Retrieval

1 Introduction

现存的的跨模态检索方法依赖于各种度量学习损失，这些损失规定了图像和文本在学习空间中的接近程度。然而，大多数先前的方法都集中在图像和文本传达冗余信息的情况下；相比之下，现实世界的图像-文本对传达的互补信息几乎没有重叠。此外，新闻文章和媒体中的图像以视觉上多样化的方式描绘主题；因此，需要特别注意以确保有意义的图像表示。本文提出了新的模态内损失，促使文本和图像子空间中的语义一致性，但是不一定与视觉一致性保持一致。本文的方法不仅确保配对的图像和文本接近，而且还观察到预期的图像-图像和文本-文本关系。与五个基线相比，本文的方法改进了四个数据集的跨模态检索结果。

如图所示。像COCO这样的标题数据集包含图像和文本重叠显著的样本（图像和文本都提到或显示相同的对象）。在这种情况下，跨模态检索意味着在两种模式中找到单一概念的表现（例如学习嵌入，使单词“香蕉”和“香蕉”的像素在学习空间中靠近）。

相比之下，现实世界的新闻文章包含了具有相同主题的图像和文本对，但显示了互补的信息(抗议标志vs关于特定事件的信息；枪支与权利讨论；彩虹旗vsLGBT权利)。虽然人类仍然可以猜出哪些图像与文本一致，但图像和文本之间的对齐是抽象的和象征性的。此外，新闻文章中的图像被孤立地显得模棱两可。

2 Method

设 $D=\{I,T\}$ 为一个文本对， $I=\{x_1,x_2,...,x_n\},T=\{y_1,y_2,...,,y_n\}$ 。

在训练时，期望检索一个给定输入图像的真值对应的文本，反之亦然。一种常见的技术是Triplet Loss，它假定成对的样本应该比非成对的样本更接近彼此。设 $T=(x_i^a,y_i^p,y_j^n)$ 表示有锚点 $(a)$ ,正对 $(p)$ ，负对 $(n)$ ：

这种损失可能是跨模态检索任务中最常见的一种，但也有一些缺陷。例如，triplet loss的梯度wrt，每一点只考虑两点，而忽略了它们与第三点的关系，如:

所以Angular Loss考虑了所有三个点的角关系：

其中 $C_i=(x_i^a+y_i^p)/2$ ，为以锚点和正对的圆的中心。

这些损失的一个具有挑战性的方面是在三组中选择一个好的负项。如果负值离锚点太远，损失将变为0，没有学习发生。相反，如果负极选择得太近，模型可能难以收敛到一个合理的解决方案，因为它不断地试图移动样本，以避免与负极重叠。所以又有N-Pair Loss：

对称约束也可以添加来显式地解释双向检索，即文本到图像，通过交换图像和文本的作用来形成对称的三联体：

本文在上述工作的基础上，制定了两个损失函数来加强模态内语义局部性。第一个，Text Loss，用来强制文本投影的局部性：

同样的对于图像模态：

最后，再添加一个如式(4)的对称损失，给予权衡参数，得到：

3 Conclusion

由图所示，将此损失施加在PVSE模型上进行跨模态检索，效果相比之前有略微提升，如果通过调参可能能得到更好的收益。本损失可以作为一个基本模块加入框架之中，增加框架的完备性。但迁移到哈希模态的实验还没有进行，准备下周开始编写代码实验。

鄙人不善奔跑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Preserving Semantic Neighborhoods for RobustCross-modal Retrieval

Preserving Semantic Neighborhoods for RobustCross-modal Retrieval1 Introduction现存的的跨模态检索方法依赖于各种度量学习损失，这些损失规定了图像和文本在学习空间中的接近程度。然而，大多数先前的方法都集中在图像和文本传达冗余信息的情况下；相比之下，现实世界的图像-文本对传达的互补信息几乎没有重叠。此外，新闻文章和媒体中的图像以视觉上多样化的方式描绘主题；因此，需要特别注意以确保有意义的图像表示。本文提出了新的模态内损失，促使文本
复制链接

扫一扫

专栏目录