题目:DRSL: Deep Relational Similarity Learning for Cross-modal Retrieval
作者: Xu Wang, Peng Hu, Liangli Zhen, Dezhong Peng
年份:2020
现有问题:跨模态样例的不平衡性导致不容易获得跨模态公共空间的模态具体表示
本文提出:DRSL,
1.通过直接学习自然成对相似度连接模态之间的异构鸿沟。
2.是一个深度混合框架:联合相关网络模型获得隐式非线性举例度量。
3.是将相关网络与跨模态学习场景联合的第一种方法。
方法框架:
Cross-modal Networks:通过CNN、FNN抽象出图像/文本的高维特征表示(modality-specific representations)
Relation Network:通过融合机制(fusion mechanism)融合文本和图像的modality-specific representations为成对样例(pairwise samples);在相关网络(Relation Network)中训练成对样例(pairwise samples)得到成对相关相似矩阵(pairwise relational similarity matrix)R
A Priori Similarity Matrix: 最小化(R-S)的Frobenius范式,得到一个先验相似矩阵(Priori Similarity Matrix)S
补充:Frobenius范式的计算方法:
可用于 利用低秩矩阵来近似单一数据矩阵。
用数学表示就是去找一个秩为k的矩阵B,使得矩阵B与原始数据矩阵A的差的F范数尽可能地小。
相关工作:
1. 跨模态检索的公共空间学习
1) 传统跨模态表示学习方法:CCA、PLS、GMA、JRL、SCCM、MvDA、MvDA-VC、GSS-SL
2.)深度跨模态表示学习方法:DCCA、DCCAE、Mv-DN、DCML
2. 关联网络(Realation Network, RN )
RN是一种能够挖掘对象之间相关关系的结构化神经网络模型。RNs背后的设计思想是约束函数式神经网络,以捕获样本之间两两关系的核心共性。RN的公式显示:
RNs的三个优点:能够推断关系;数据高效;在对象集上操作。
RNs第一次应用在多模态数据中
本方法:
1. 问题表述
首先,公式的定义:图像模态:,文本模态:
i代表image,t代表文本。
其次,对每个样本进行分类:训练集的样本表示为:,
同样的,i代表image,t代表文本。
基本思路:用距离度量来计算不同模态之间的相似度。本方法基于DNN计算非线性度量。
2. 框架
如图2
1)跨模态网络模型
多模态特征向量:
2)关联网络模型:
一方面,一个融合机制(fusion mechanism):
另一方面,一个关联网络(relation network):
首先,将图像和文本在跨模态网络模型中计算出模态详细特征;然后,任意两个跨模态样本zi和zt融合为向量v,得到一个融合特征向量集的公式为:
最后,将特征向量放在关联网络中进行计算得到关联相似度:
3)目标函数
由上述可知,图像特征向量集:
同样,文本特征向量集:
使用(4)计算融合向量,使用(5)计算相似度,使用h( , )表示一个非线性函数。因此,两两相似度(pairwise similarities)为:(矩阵形式)
另外,我们要定义一个先验相似度矩阵S,并将类内的值设为1,类间设为0:
因此,我们的损失函数为:
这个损失函数同样被用在DRSL算法的基于DNN的反向传播中。
因此,这个模型被一个随机梯度下降的优化算法进行改进。DRSL伪码如下:
比较实验很丰富:
不同于CCA、MCCA、PLS:多模态的线性转变,无监督,两两模态,一些判别信息没有被挖掘。本方法是深度有监督方法,无两两限制;
不同于GMA、MvDA-VC、JRL:表示了判别信息,但是计算的是两两(文本-图像)模态的相似性。本方法可以在任意模态中,且适合跨模态数据的不平衡性;提取高维非线性特征;
不同于CMML、DCML:在相似模态对中最大化距离度量,在不同模态对中最小化相似性,需要手工选择测量相似性的度量。本方法扩大相似模态的相似性,减少不同模态的相似性,本方法通过pairs计算相似性,更加具有自适应性;
不同于DCCA、DCCAE、CCL、MCSM:使用了DNN处理不同模态潜在公共空间的非线性学习,并且假设不同模态中的信息是对等的。本方法通过计算pairwise similarity成对相似度解决了跨模态检索中的不平衡和不满意度量问题。
不同于FGCrossNet:是一种结合了分类、中心、排序三种约束的好的跨模态检索方法。本方法既不需要这些约束,也不需要挖掘公共空间。
不同于GSS-SL、ASFS:半监督,结合成对关联中的标签信息。本方法深度监督模型,旨在学习学习不同视角样例中的固有相似度从而有效缓解异构鸿沟的问题。
不同于SCCM:通过将简单的查询序列转换为复杂的,得到一个好的潜在空间,其秩与本方法关联相似度有点相似。本方法没有明确学习潜在空间。
数据集:
代码:https://github.com/wangxu-scu/DRSL.
实验评估和对比方法:
选取11种方法对比:CCA、MvDA、MvDA-VC、JRL;DCCA、DCCAE、ACMR、CMDN、MCSM、CM-GANs、CCL
mAP的比较:
融合机制的敏感分析:DRSL-c、DRSL-M、DRSL-A、DRSL-S。
收敛性分析:
时间消耗:
改进方向:损失函数
学习所用,禁止转载,转载请附原文链接!