SVHN:Separated Variational Hashing Networks for Cross-Modal Retrieval 阅读笔记
2019--ACM MM --无代码
摘要:跨模态哈希由于其低存储成本和高查询速度,已成功地应用于多媒体检索应用中的相似性搜索。它将高维数据投影到一个共享的同构哈明空间,具有相似的二进制代码的语义相似数据。在某些应用中,由于某些隐私、秘密、存储限制,以及计算资源限制,可能不能同时获得或训练所有的模式。然而,大多数现有的跨模态哈希方法都需要所有的模式来共同学习公共的汉明空间,从而阻碍了它们无法处理这些问题。在本文中,我们提出了一种新的方法,称为分离变分散希网络来克服上述挑战。首先,采用标签网络利用可用的和非特定的标签注释,将每个语义标签投影到一个公共的二进制表示中,来学习潜在的公共哈明空间。然后,每个特定模态的网络都可以将相应模态的样本分别映射到标签网学习的二进制语义码中。我们通过进行变分推理来匹配实验室网的哈希码的聚合后验和任意先验分布。在4个广泛使用的多媒体数据库上进行的大量实验验证了我们的视频的有效性和效率,与11种最先进的方法相比。
模型图:
方法:
1.标签训练网络。loss计算公式如下:
2.模态训练。公式如下:
实验结果:
个人总结:
论文屡次强调的优势在于:可以用单独的模态进行训练,而不需要成对的模态。其思想是:先训练标签,标签网络生成哈希码。然后训练各个模态,产生均值和方差后,用均值和方差重新进行采样(变分推理,用了概率论中的KL散度啥的),然后产生哈希码,与标签生成的哈希码进行比较。奇怪的是,在论文的消融实验里可见,其变分推理带来的贡献并不大。