摘要
如今的跨模态检索问题存在三大局限:
1,之间没有工作同时挖掘多模态信息的一致性和特定模态的信息(多视角的思想)
2,因为庞大的计算和存储开销,两两相似度的识别能力经常被忽略。
3,离散化的问题经常被松弛化,松弛化会造成量化损失。
所以这里我们提出了我们的ASCSH.它有如下特点:
1,将映射矩阵分解成一致性和特定模态的矩阵。
2,两两相似度和语义标签同时去指导哈希码的学习。
3,我们的离散非对称结构能够有效地解决二进制约束问题,并且不需要松弛处理。
关于非对称结构
根据查询和检索的数据库的编码策略是否相同,散列方法可以分为对称散列方法和
非对称方法。并且理论上也证明了非对称散列可以在编码更紧凑的情况下获得更好
的检索性能。例如我们常常提到的DCMH就是一种非对称的结构。
提出算法
1,
2,
我们使用核范数去规范一致性矩阵,来确保低秩属性,这有利于保持不同模态的公共语义。
我们使用F范数去规范特定模态的矩阵。
3,
本文的核心思想:非对称策略
4,一般的对称策略是这样写的:
但这里我们采用了非对称策略,为什么要采用非对称策略呢?
我们设
V可以看作是查询点的哈希码,B可以看做是训练数据集的哈希码。
这种不对称比对称更能自然地描述真实世界的检索任务。
在这种非对称学习方式下,哈希码和哈希函数可以分别学习(也就是
不像其他的,要学就只学哈希码,搞two-step,或者要学就只学映射,
想要哈希码要现算)。
整体的损失函数
这个损失函数有以下好处:
(1)离散公共潜在表示V能更准确自然地表达多模态语义,而二进制哈希
码B能很好地保持两两相似度。
(2)比two-step好:该方法可以无缝地将哈希码学习和哈希函数学习集成
到一个统一的非对称优化框架中。
(3)比one-step好:我们通过非对称结构中的两个不同的矩阵,即V和B来
学习哈希码和哈希函数,简化了传统的one-step的优化过程。
(这里是怎么简化的?还是不太明白哎)
优化过程和out-of-sample
见DLFH.