【论文泛读】Deep Cross-Modal Projection Learning for Image-Text Matching

浪里摸鱼

已于 2022-10-11 14:19:23 修改

阅读量1k

点赞数

文章标签：计算机视觉深度学习人工智能

于 2022-10-08 15:47:36 首次发布

本文链接：https://blog.csdn.net/weixin_42802447/article/details/127208884

版权

论文泛读专栏收录该内容

65 篇文章 30 订阅

订阅专栏

主要方法

论文翻译

1.摘要

图像文本匹配的关键是如何准确测量视觉输入和文本输入之间的相似度。尽管深度跨模态嵌入与双向排序损失关联的研究取得了很大进展，但在实际应用中，开发有用三元组的挖掘策略和选择合适的余量仍然是一个挑战。在本文中，我们提出了一种用于学习判别图像-文本嵌入的跨模态投影匹配(CMPM)损失和跨模态投影分类(CMPC)损失。CMPM损失使投影兼容性分布与小批中所有正和负样本定义的归一化匹配分布之间的KL发散最小化。CMPC丢失尝试用改进的norm-softmax丢失对表示的向量投影从一个模态到另一个模态进行分类，以进一步增强每个类的特征紧凑性。在多个数据集上的大量分析和实验证明了该方法的优越性。

2.介绍

夸领域程序的一个关键任务是测量可视化数据和文本描述之间的相似性。现有方法：
1.对共享潜在空间中的图像和文本进行联合嵌入学习[39,44,40,21]
2. 要么构建相似性学习网络[16,15,22,11,40]，计算图像和文本的匹配得分。
结论：基于联合嵌入学习效率更高。

联合嵌入学习框架一般采用双分支体系结构，一个分支提取图像特征，另一个分支提取文本特征，然后利用函数判别交叉模态嵌入。最常用的函数包括典型相关分析(CCA) 和bi-directional ranking loss[39,40,21]。bi-directional ranking loss 具有更好的稳定性和性能[40]。然而，在实际应用中，该算法需要对有用的三元组进行采样和选择合适的边距。

尽管这些深度学习技术在仅使用成对对应的图像和文本匹配方面取得了巨大成功，但最近的一些研究[28,16,15]探索了更有效的具有身份级注释的跨模态匹配算法。这些研究成果表明，通过引入类别分类丢失作为辅助任务[28]或预先训练的初始化，可以大大增强学习过的图像-文本嵌入的识别能力[16,15]。考虑到独立分类可能不能充分利用身份信息进行跨模态特征学习的事实，[15]开发了跨模态交叉熵(CMCE)损失，它使用跨模态样本到身份的亲和性进行类别预测，而该策略需要分配额外的身份特征缓冲区，这可能会在有大量的主题时带来大量的内存消耗。

针对这些问题，我们提出了一种跨模态投影匹配丢失(CMPM)和一种跨模态投影分类丢失(CMPC)，该丢失引入了用于学习判别图像-文本嵌入的跨模态特征投影操作。CMPM损失试图最小化投影兼容分布和归一化匹配分布之间的KL发散，以增加不匹配样本之间的方差和匹配样本之间的关联。CMPM损失函数不需要选择特定的三元组，也不需要调优裕量参数，并且在不同的批大小下都具有很好的稳定性。对于带有标识标签的辅助分类任务，CMPC丢失尝试将一种模态的特征向量投影分类到另一种模态的匹配特征上，而不是对原始特征进行独立的分类。大量的实验和分析证明了所提方法在高效学习区分图像-文本嵌入方面的优越性。

提出的算法

网络体系结构

模型使用：基于联合嵌入学习（MobileNet 提取图像特征、BI-LSTM提取文本特征、联合学习模块）

给定一个句子，我们应用基本的标记化并将其拆分为单词，然后用Bi-LSTM依次处理它们。将正向和向后方向的隐藏状态连接起来，采用最大池策略获得初始文本表示。对于图像，我们使用 MobileNet 并从最后的池化层提取其初始特征。在关联模块中，将提取的图像和文本特征嵌入到共享潜空间中，使匹配特征之间的兼容性和未匹配样本之间的方差最大化。

在本文中，我们专注于学习关联模块中的判别特征，并在接下来的章节中描述了所提出的跨模态投影匹配(CMPM)和跨模态投影分类(CMPC)损失函数。

Cross-Modal Projection Matching

提出新图像-文本匹配损失，称为Cross-Modal Projection Matching(CMPM)，它将跨模态投影融合到 KL发散中，以关联不同模态的表征。
给定一个包含n个图像和文本样本的小批，对于每个图像xi，图像-文本对构造为{(xi, zj)， yi,j}n j=1，其中yi,j =1表示(xi, zj)是匹配的对，而yi,j = 0表示未匹配的对。xi与zj匹配的概率定义为
在这里插入图片描述
式中，}zj为归一化文本特征。几何上x⊤i’zj表示图像特征xi在文本特征zj和pi上的标量投影，j可以看作是(xi, zj)在一个小批量中所有对{(xi, zj)}n j=1中标量投影的百分比。图2 (a)显示了交叉模态投影的几何解释。我们可以看到，图像特征与文本特征越相似，标量投影越大。注意，如果两个向量位于相反的方向，则标量投影可以是负的，例如图中x⊤i ’ zk。

浪里摸鱼

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文泛读】Deep Cross-Modal Projection Learning for Image-Text Matching

夸领域程序的一个关键任务是测量可视化数据和文本描述之间的相似性。现有方法：1.对共享潜在空间中的图像和文本进行联合嵌入学习[39,44,40,21]2. 要么构建相似性学习网络[16,15,22,11,40]，计算图像和文本的匹配得分。结论：基于联合嵌入学习效率更高。联合嵌入学习框架一般采用双分支体系结构，一个分支提取图像特征，另一个分支提取文本特征，然后利用函数判别交叉模态嵌入。
复制链接

扫一扫