Aggregation-based Graph Convolutional Hashing for Unsupervised Cross-modal Retrieval--文献翻译

摘要

跨模态哈希因其存储和查询效率而在大规模信息检索中备受关注。尽管监督方法取得了巨大成功,但现有的无监督哈希方法仍然缺乏可靠的学习指导和跨模态差异。在本文中,我们提出了基于聚合的图卷积散列(AGCH)来解决这些障碍。首先,考虑到单一的相似性度量很难全面地表示数据关系,我们开发了一种有效的聚合策略,利用多个度量来构建更精确的学习亲和矩阵。具体来说,我们应用各种相似性度量从不同角度利用多种模式的结构信息,然后聚合获得的信息以产生联合相似性矩阵。此外,一种新颖的深度模型旨在学习跨不同模态的统一二进制代码,其中关键组件包括模态特定编码器、图卷积网络 (GCN) 和融合模块。特定于模态的编码器的任务是为每个单独的模态学习特征嵌入。在此基础上,我们利用 GCNs 进一步挖掘数据的语义结构,以及一个融合模块来关联不同的模态。对三个真实世界数据集的广泛实验表明,所提出的方法明显优于最先进的竞争对手。

1、介绍

鉴于当今多媒体数据量空前,迫切需要有效和高效的搜索技术。为了满足这一要求,提出的基于散列的方法旨在将高维数据映射为紧凑的二进制代码,并保留原始语义关系[1]-[8]。由于快速查询速度和低存储消耗的吸引力,散列技术引起了广泛的兴趣[9]-[15]。

        大多数传统的散列方法主要集中在单峰检索[2],[16]-[21],其中查询和数据库是同质的,例如,查询项和数据库项都是图像。然而,在许多现实世界的应用程序中,数据通常以各种类型出现,例如文本、图像、音频或视频,这意味着有必要跨不同的模态执行搜索。例如给定文本、图像或视频的查询项,将返回与查询语义相关的内容。在这种情况下,单峰方法不再适用。因此,跨模式散列(CMH)[22]-[27] 得到了大力研究,包括有监督和无监督方法。

        监督 CMH 方法 [28]-[33] 直接利用预先标注的标签或预先获得的相似性关系作为学习所需哈希码的统一指导。有了如此强大的监督,受监督的 CMH 可以取得可喜的成果。最近,流行的深度神经网络进一步推动了监督方法的发展,作为高级非线性特征,能够提取丰富的语义信息[34]-[37]。然而,在现实世界中,标记大规模数据集是一项艰巨的工作,这非常耗时并且总是需要专业知识。相比之下,无监督 CMH [30]、[38]-[41] 通过在没有语义标签的情况下利用训练数据的底层几何结构生成二进制代码,从而获得竞争力较低的性能。然而,在实践中它比监督方法更实用,因为不需要手动注释。

        基于图的哈希一直是一个长期的研究兴趣,传统上以亲和图作为学习的指导[10]、[42]、[43]。例如,光谱散列 (SH) [16] 通过求解图拉普拉斯特征向量来学习二进制代码。然而,由于该方法需要全局相似性度量,解决优化问题非常耗时。为了克服这个缺点,[17]构造了一个低秩相似性保持算法来在线性时间内解决。 [44]设计了一种按位顺序学习策略,通过特征转换有效地逼近全局亲和力。此外,考虑到二元约束,[45]将原始优化问题转化为两个子问题,从而得出最优解。最近,也有一些工作研究试图在特征提取过程中结合图以学习更多的语义,例如图卷积网络哈希(GCNH)[13]和图卷积哈希(GCH)[46] .更具体地说,GCNH 被提议通过对输入数据和锚图的直接卷积操作来处理半监督检索。 GCH 在学习框架中同时利用卷积神经网络 (CNN) 和图卷积网络 (GCN) 来学习更具判别性的哈希码。

        尽管有许多方法都提出了有希望的结果,但很少考虑用于无监督搜索的深度散列。在本文中,我们专注于无监督跨模态设置下的检索任务。为了追求高质量的哈希码和函数,需要考虑两个问题。一是如何获得可靠的学习监督指导。其次,由于不同媒体类型的数据通常存在于不同的特征空间中,因此具有特定的特征,因此需要解决异质性问题。为了解决上述问题,在本文中,我们提出了一种新的深度跨模态哈希模型,称为基于聚合的图卷积哈希(AGCH),用于大规模无监督异构数据检索。一方面,为了全面获得语义,开发了一种新的基于聚合的相似度矩阵构造方法。更具体地说,由于多模态数据从不同的角度描述对象并具有不同的统计特性,它们通常包含互补和多样化的信息。为了充分利用这一点,我们自适应地结合嵌入在每个单独模态中的内在信息,以全面了解数据项关系。此外,与以前仅从一个角度利用数据关系的方法相比,即根据单个基于距离的度量,我们通过各种度量对其进行监督,以利用多模态数据中包含的丰富结构信息。鉴于此,我们获得了一个可靠的监督信号,用于学习偏差较小。另一方面,为了处理数据的异构性,构建了一个新的深度模型,由多个子网络组成,每个子网络用于一个模态来学习特定于模态的哈希函数。特别是,每个子网络都以深度网络作为数据编码器,并进一步采用图卷积网络(GCN)[47]来深入探索底层邻域结构,有利于判别式二进制代码学习。提出了一个融合模块来连接每个模态以学习统一的二进制表示。设计一个有效的目标函数来保持模态内和模态间的一致性。在不失一般性的情况下,该模型可以通过添加额外的子网络轻松扩展到具有更多模态的情况,每个子网络对应一个模态。我们提出的方法的概述如图 1 所示,其贡献总结如下。

        

1、据我们所知,本文描述了第一次尝试使用各种基于距离的相似性度量来构建亲和图。此外,我们融合了来自不同模态的多样化和互补信息,通过这些信息可以很好地捕捉到内在的语义结构,更好地表示多模态数据之间的相似关系。
2、这也是第一个将 GCNs 应用于无监督哈希学习的工作。我们的模型能够保持模态内和模态间的一致性以及不同模态之间的交互。更重要的是,它充分考虑了学习过程中的邻域相关性。结果,获得了高质量的二进制表示。
3、从三个基准数据集的广泛实验中获得的有希望的结果证明了所提出的 AGCH 算法的有效性。

图 1:提出的 AGCH 框架示意图,该框架由三个主要部分组成:基于聚合的相似度矩阵构建、特征编码和哈希码学习。 

 本文算是再DJSRH一文上添加了一个GCN模块的扩展工作,其在对向量之间的相似度计算中考虑的距离因素对向量之间的区分度提升有一定的帮助,此外,将两个模态输出的特征合并再计算新的哈希编码,能够不同样本对之间具有更好地区分度。总体结构清晰明了,对于如何基于参考前人的工作再重构新的工作有一定借鉴意义。
 

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于对抗的跨媒体检索Cross-modal retrieval aims to enable flexible retrieval experience across different modalities (e.g., texts vs. images). The core of crossmodal retrieval research is to learn a common subspace where the items of different modalities can be directly compared to each other. In this paper, we present a novel Adversarial Cross-Modal Retrieval (ACMR) method, which seeks an effective common subspace based on adversarial learning. Adversarial learning is implemented as an interplay between two processes. The first process, a feature projector, tries to generate a modality-invariant representation in the common subspace and to confuse the other process, modality classifier, which tries to discriminate between different modalities based on the generated representation. We further impose triplet constraints on the feature projector in order to minimize the gap among the representations of all items from different modalities with same semantic labels, while maximizing the distances among semantically different images and texts. Through the joint exploitation of the above, the underlying cross-modal semantic structure of multimedia data is better preserved when this data is projected into the common subspace. Comprehensive experimental results on four widely used benchmark datasets show that the proposed ACMR method is superior in learning effective subspace representation and that it significantly outperforms the state-of-the-art cross-modal retrieval methods.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值