Separated Variational Hashing Networks for Cross-Modal Retrieval

Separated Variational Hashing Networks for Cross-Modal Retrieval ----ACM MM

1 Introduction

​ 跨模态哈希由于其低存储成本和高查询速度,已成功地应用于多媒体检索应用中的相似性搜索。它将高维数据投影到一个共享的同构哈明空间,具有相似的二进制代码的语义相似数据。在某些应用中,由于某些隐私、秘密、存储限制,以及计算资源限制,可能不能同时获得或训练所有的模式。然而,大多数现有的跨模态哈希方法都需要所有的模式来共同学习公共的汉明空间,从而阻碍了它们无法处理这些问题。本文提出了一种新的方法,称为分离变分散希网络来克服上述挑战。首先,采用标签网络利用可用的和非特定的标签注释,将每个语义标签投影到一个公共的二进制表示中,来学习潜在的公共哈明空间。然后,每个特定模态的网络都可以将相应模态的样本分别映射到标签网学习的二进制语义码中。

2 Method

image-20211031193657528

由于多模态数据通常具有不同的统计特性,并遵循不一致的分布,因此它们不能直接相互比较以进行跨模态检索。多模态哈希尝试学习特定于m个模态的函数 f k ( ⋅ ) k = 1 m {f_k(·)^m_{k=1}} fk()k=1m,将相应的模态投射到一个共同的汉明空间中,在那里不同模态的哈希码可以直接相互比较。然后利用得到的公共哈希码进行跨模态检索,计算出不同模态之间的相似性。此外,在普通汉明空间中,同一类样本的相似性应当大于不同类别样本的相似性。

2.1 Label Network

来自不同模式的标签具有不明确的形式,而且它们在现实世界的应用程序中比成对的多模态数据更容易获得。这个标签是语义的直接载体。因此,可以直接从可用的标签中学习到准确的二进制语义代码,目标函数为:

image-20211031194329663

其中 u i = g ( y i ) ∈ R L u_i=g(y_i)\in{\mathrm{R}^L} ui=g(yi)RL,为LabNet, △ i j = 1 { S ( y i , y j } \triangle_{ij}=1\{S(y_i,y_j\} ij=1{S(yi,yj}。具体优化过程如下图:

image-20211031194655081
2.2 Modality Network

与传统的VAE不同,本文提出的modality-specific variational net-works(mvn)利用后验推理模型将特定于模态的数据编码为LabNet从其语义标签中学习到的公共语义二进制代码。encoder目的是将输入转换为具有参数的潜在变量 { θ k } k = 1 m \{\mathrm{\theta}_k\}^m_{k=1} {θk}k=1m,解码器试图将潜在变量转换为标签输入的哈希码,而不需要任何可训练的参数,然后,第k个模态的MVN的目标函数可以表述如下:。

image-20211031195336486

D K L ( ⋅ ) D_{KL}(·) DKL()为KL散度, J J J为每个数据点的采样数。

3 Conclusion

image-20211031194746625 image-20211031194822466

论文屡次强调的优势在于:可以用单独的模态进行训练,而不需要成对的模态。其思想是:先训练标签,标签网络生成哈希码。然后训练各个模态,产生均值和方差后,用均值和方差重新进行采样(变分推理,用了概率论中的KL散度),然后产生哈希码,与标签生成的哈希码进行比较。奇怪的是,在论文的消融实验里可见,其变分推理带来的贡献并不大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值