Lightweight Augmented Graph Network Hashing for Scalable Image Retrieval
1 Introduction
哈希编码旨在将高维数据投影到低维保相似的二进制码中,大大减少数据存储空间的消耗,加快检索过程。由于散列的优点,近年来受到了广泛的关注,并提出了各种大规模图像检索方法。由于无监督深度哈希方法学习哈希函数和哈希码而不需要详细的标注的数据这种依赖,因此它们很好地支持不同规模的图像检索。但是无监督深度哈希难以优化,训练效率低,深度神经网络涉及大量参数,无法提供显式的语义监督。如何减少需要优化的参数数量,同时提高深度网络的语义表示能力,是迫切需要解决的两个重要问题。
本文提出了一种双管齐下的策略来解决现有的无监督深度哈列方法中的两个关键问题。首先,提取了随处可得的辅助语义信息,并将其作为监督器来指导哈希学习的训练过程。另一方面,在辅助语义的帮助下,设计了一个轻量级的网络,以避免深度网络中过多的参数,从而加速训练过程。
其次本文基于提取的辅助语义信息,设计了一个跨模态注意模块,以自适应地减轻深度图像特征的不利影响。此外,还提出了一种基于去噪特征和增强语义图的对抗性正则化图卷积网络,通过重构捕获的语义关系来学习语义增强的哈希码。
2 Method
![](https://gitee.com/govvc/images/raw/master/image-20211128202157964.png)
X = [ x 1 , . . . , x n ] ∈ R d × n \large{X=[x_1,...,x_n]}\in{R}^{d\times{n}} X=[x1,...,xn]∈Rd×n, Y = [ y 1 , . . . , y n ] ∈ R c × n \large{Y=[y_1,...,y_n]}\in{R}^{c\times{n}} Y=[y1,...,yn]∈Rc×n,别表示图像特征向量,辅助语义特征向量。 y i j = 1 y_{ij}=1 yij=1表示 j − t h j-th j−th语义标签和 i − t h i-th i−th图像有联系。
2.1 Cross-modal Attention Denoising
对每个训练集都得 x i \mathrm{x}_i xi,计算其和所有辅助语义 { y j } j = 1 n \large\{y_j\}^n_{j=1} {yj}j=1n的注意力得分得到矩阵 A a t t ∈ R n × n \large\mathrm{A}^{att}\in{\mathbb{R}^{n\times{n}}} Aatt∈Rn×n:
![image-20211128203120104](https://gitee.com/govvc/images/raw/master/image-20211128203120104.png)
x ˉ , y ˉ \large\mathrm{\bar{x}},\mathrm{\bar{y}} xˉ,yˉ为经过一个线性层后的特征, [ α ] + = m a x ( α , 0 ) \large[\alpha]_+=max(\alpha,0) [α]+=max(α,0)。
最后得到:
![image-20211128203446308](https://gitee.com/govvc/images/raw/master/image-20211128203446308.png)
2.2 Augmented Semantic Graph Construction
使用高斯核函数计算诗句相似度图:
![image-20211128203549561](https://gitee.com/govvc/images/raw/master/image-20211128203549561.png)
计算图片 i , j i,j i,j的辅助相似度矩阵:
![image-20211128203701690](https://gitee.com/govvc/images/raw/master/image-20211128203701690.png)
最后得到相似度矩阵为:
![image-20211128203730165](https://gitee.com/govvc/images/raw/master/image-20211128203730165.png)
μ \mu μ为融合参数。
2.3 Hash Code Learning
本文引入了两层轻量级图卷积网络:
![image-20211128204012990](https://gitee.com/govvc/images/raw/master/image-20211128204012990.png)
s ~ = D − 1 / 2 S D − 1 / 2 , D i i = ∑ j S i j \large\mathrm{\tilde{s}=D^{-1/2}SD^{-1/2}},\mathrm{D}_{ii}=\sum_j{\mathrm{S}_{ij}} s~=D−1/2SD−1/2,Dii=∑jSij,
随后得到量化损失: m i n L q u a n = ∣ ∣ B − Z ∣ ∣ F 2 \large\mathrm{min}\mathcal{L}_{quan}=\mathrm{||B-Z||^2_F} minLquan=∣∣B−Z∣∣F2
本文启发式地利用GCN输出的余弦相似性来重构辅助相似度图: m i n L r e c o n s = ∣ ∣ k S a − [ c o s ( Z T , Z ) ] + ∣ ∣ F 2 \large\mathrm{min}\mathcal{L}_{recons}=\mathrm{||kS^a-[cos(Z^T,Z)]_+||^2_F} minLrecons=∣∣kSa−[cos(ZT,Z)]+∣∣F2 ,新的表示可以看作是哈希码的连续表示,因此将图像之间的相似性转移到哈希码中,节点表示之间的余弦相似性可以反映哈明空间中哈希码的角关系,这些角关系等价于哈希码的汉明距离。。
此外,本文强制让新表示的数据分布匹配真实的数据分布。所以引入了生成对抗网络:
![image-20211128204939137](https://gitee.com/govvc/images/raw/master/image-20211128204939137.png)
因为引入了辅助语义信息,所以还有对比损失
![image-20211128205132518](https://gitee.com/govvc/images/raw/master/image-20211128205132518.png)
最终的损失函数形式为:
![image-20211128205220848](https://gitee.com/govvc/images/raw/master/image-20211128205220848.png)
3 Conclusion
![image-20211128205321282](https://gitee.com/govvc/images/raw/master/image-20211128205321282.png)
由图可见,本文的检索精确度再前任方法上确实得到了较大的提升,并且由于只引入了两层的GCN和三层的鉴别器,训练效率也比较高。并且作者在消融实验中对比了是否引入语义辅助损失能够带来的相似度的变化十分显著,可见如何构建一个能够良好保持模态内和模态间的相似度关系是检索问题中的一个关键所在。