摘要
目前的无监督跨模态检索精确度都不行,因为只依靠跨模态特征是不够的。并且有一种场景是两组数据有不同的表示,但是有共同的潜在空间,这种情况就是仅仅靠跨模态特征是不够的。
因此我们提出了我们的DGCPN.这个方法从图模型衍生出来,并且通过考虑数据和它的邻居考虑了图近邻关系。
我们考虑了三种数据的相似度:图近邻关联,一致性关联,模内和模间关联,并且设计了半实值和半二进制优化策略。重要的是,DGCPN通过探索数据在图中的固定性质来解决准确性不足的问题。
提出方法
框架和引入
这里我们有三个定义:,,,分别是提取的特征,映射后的实值,二进制编码。
我们通过内积来计算相似度:
图近邻关联
我们把pair的图像和文本变成图中的一个点,这里姑且称为一组数据。
这样就得到了图 ,G表示图,O表示顶点集,表示边。
两组数据的相似度我们用图来得出:
下面这个公式是关键,在这个公式里,我们判定两个点的相似度,不是通过以往的它们的内积,而是通过这两个点分别与其他所有的点的关系是否相同来判断的:
在这里,我们找出 oi 的 k 个最近邻的点,并且定义 oi 和 oq 的相似度为:
其中,.
这个公式的意义是,如果 oq 不是 oi 的 k 个最近的近邻点之一,那么 P 的值是 0.否则 P 的值就是oq 的相似度与所有点相似度和的比值。
最后我们得出总的相似度,为了增强鲁棒性,我们将 和 组合起来。
组合起来的结果就是 .
我们把相似度限制在 [-1, 1] 之间:.
综合相似度保持损失
这里就是多加了几个相似度矩阵,通过不同模态的排列组合:
第一个式子,就是保持了 I_T, I_I, T_T 与图得到的相似度。
第二个式子,就是保持了成对的pair I_T 的相似度要接近1.5I.
第三个式子,就是保持了I_T与I_I, I_T与T_T, I_I与T_T, I_T与T_I的相似度。
半实值和半相似度优化策略
实际上就是半边用sign,保持不变,训练另一边,不用sign的。
分别是 I.sign 对 T, T.sing 对 I.
图示
注释
记住,这里的 I_T 和 T_I 不是对称矩阵。
但是通过图得到的 S 却是对称矩阵。