Separated Variational Hashing Networks for Cross-Modal Retrieval

鄙人不善奔跑

于 2021-12-12 14:32:33 发布

阅读量309

点赞数

分类专栏：跨模态文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_39400568/article/details/121887225

版权

跨模态专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Separated Variational Hashing Networks for Cross-Modal Retrieval ----ACM MM

1 Introduction

跨模态哈希由于其低存储成本和高查询速度，已成功地应用于多媒体检索应用中的相似性搜索。它将高维数据投影到一个共享的同构哈明空间，具有相似的二进制代码的语义相似数据。在某些应用中，由于某些隐私、秘密、存储限制，以及计算资源限制，可能不能同时获得或训练所有的模式。然而，大多数现有的跨模态哈希方法都需要所有的模式来共同学习公共的汉明空间，从而阻碍了它们无法处理这些问题。本文提出了一种新的方法，称为分离变分散希网络来克服上述挑战。首先，采用标签网络利用可用的和非特定的标签注释，将每个语义标签投影到一个公共的二进制表示中，来学习潜在的公共哈明空间。然后，每个特定模态的网络都可以将相应模态的样本分别映射到标签网学习的二进制语义码中。

2 Method

由于多模态数据通常具有不同的统计特性，并遵循不一致的分布，因此它们不能直接相互比较以进行跨模态检索。多模态哈希尝试学习特定于m个模态的函数 ${f_k(·)^m_{k=1}}$ ，将相应的模态投射到一个共同的汉明空间中，在那里不同模态的哈希码可以直接相互比较。然后利用得到的公共哈希码进行跨模态检索，计算出不同模态之间的相似性。此外，在普通汉明空间中，同一类样本的相似性应当大于不同类别样本的相似性。

2.1 Label Network

来自不同模式的标签具有不明确的形式，而且它们在现实世界的应用程序中比成对的多模态数据更容易获得。这个标签是语义的直接载体。因此，可以直接从可用的标签中学习到准确的二进制语义代码，目标函数为：

其中 $u_i=g(y_i)\in{\mathrm{R}^L}$ ,为LabNet， $\triangle_{ij}=1\{S(y_i,y_j\}$ 。具体优化过程如下图：

2.2 Modality Network

与传统的VAE不同，本文提出的modality-specific variational net-works（mvn）利用后验推理模型将特定于模态的数据编码为LabNet从其语义标签中学习到的公共语义二进制代码。encoder目的是将输入转换为具有参数的潜在变量 $\{\mathrm{\theta}_k\}^m_{k=1}$ ，解码器试图将潜在变量转换为标签输入的哈希码，而不需要任何可训练的参数,然后，第k个模态的MVN的目标函数可以表述如下：。

$D_{KL}(·)$ 为KL散度， $J$ 为每个数据点的采样数。

3 Conclusion

论文屡次强调的优势在于：可以用单独的模态进行训练，而不需要成对的模态。其思想是：先训练标签，标签网络生成哈希码。然后训练各个模态，产生均值和方差后，用均值和方差重新进行采样（变分推理，用了概率论中的KL散度），然后产生哈希码，与标签生成的哈希码进行比较。奇怪的是，在论文的消融实验里可见，其变分推理带来的贡献并不大。

鄙人不善奔跑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Separated Variational Hashing Networks for Cross-Modal Retrieval

Separated Variational Hashing Networks for Cross-Modal Retrieval ----ACM MM1 Introduction 跨模态哈希由于其低存储成本和高查询速度，已成功地应用于多媒体检索应用中的相似性搜索。它将高维数据投影到一个共享的同构哈明空间，具有相似的二进制代码的语义相似数据。在某些应用中，由于某些隐私、秘密、存储限制，以及计算资源限制，可能不能同时获得或训练所有的模式。然而，大多数现有的跨模态哈希方法都需要所有的模式来共同学习公共的汉明
复制链接

扫一扫

专栏目录