Multi-Metrics Graph-Based Unsupervised Domain Adaptation for Cross-Modal Hashing
1 Introduction
在没有任何标记样本的情况下难以捕获具有区分度的语义特征,使得跨模态表示的缺乏区分性。这是大多数无监督方法不能达到与监督方法相同的检索精确度的主要原因。本文提出以一种如下图所示名为基于图的多矩阵无监督域适应的方法(Multi-Metrics Graph-Based Unsupervised Domain Adaptation,M2GUDA)。
具体来说,该方法是一个端到端框架,包括一个特征提取器、一个跨模态编码器、一个哈希层、一个域鉴别器和一个跨域GCN,它们共同用于域和模态不变哈希码的学习。为了实现从标记源域到未标记目标域的高效语义知识转移,提出了一种包含结构一致性、语义一致性、域一致性和模态一致性四种一致性约束的领域自适应学习机制来指导模型训练。
2 Method
令表示源域的多模态数据集,为目标与多模态数据集,本模型的目的是迁移 S ˉ \bar{S} Sˉ中的信息到 τ \tau τ中来学习哈希编码。
2.1 Domain Adaptation Strategy
① Structure Consistency
由于不同域之间的特征分布区别很大,阻碍了语义信息的迁移。因此,在训练过程中,作者考虑了每个batch中不同域的中间表示的空间结构一致性,并据此可以表示结构一致性损失。此处作者分别使用了欧氏距离和余弦相似度来计算节点之间的距离。
然后计算节点的三元组损失
再将两个图喂入GCN中:
其中 [ Γ ] I [\Gamma]_I [Γ]I为stack操作后的 { Γ I } \{\Gamma_I\} {ΓI}, D i i = ∑ j A i j D_{ii}=\sum_jA_{ij} Dii=∑jAij.
② Domain Consistency
知识迁移的另一个重要工作是减少跨领域的异构性。此处作者引入了一个GAN网络:
③ Semantic Consistency
为了保持语义一致性,此处引入源域的label { y i ˉ } \{\bar{y_i}\} {yiˉ},和目标与的伪label { y I i } \{y_{Ii}\} {yIi}, { y T I } \{y_{TI}\} {yTI},来构成损失:
④ Modality Consistency
为了缓解不同模态之间的异构性,在源域和目标域上均采用跨模态triplet损失,引导编码器生成模态不变表征:
2.2 Objective Function
使用下列函数来训练哈希编码:
所以最终的损失函数为:
3 Conclusion
由实验结果可以看出,本文尽管地堆叠了GCN,GAN,Triplet模块,但是其精确度相较于19年的SSAH一工作并未提升太多,由此也可见如何保持训练过程中的模态一致性的保持,关键并不是再挖掘模态内的语义信息,而是如何保持模态间的语义相似度,这也是为什么跨模态工作一直停滞不前的问题之一。