Triplet-Based Deep Hashing Network forCross-Modal Retrieval--文献翻译

论文链接:IEEE Xplore Full-Text PDF:

摘要:

        鉴于其低存储要求和高检索效率的好处,散列最近受到越来越多的关注。特别是,跨模态散列已被广泛并成功地用于多媒体相似性搜索应用中。然而,几乎所有现有的跨模态哈希方法都无法获得强大的哈希码,因为它们忽略了包含更丰富语义信息的异构数据之间的相对相似性,导致检索性能不理想。在本文中,我们提出了一种基于三元组的深度哈希 (TDH) 网络,用于跨模态检索。首先,我们利用三元组标签,将三个实例之间的相对关系描述为监督,以便捕获跨模态实例之间更一般的语义相关性。然后,我们从模态间视图和模态内视图建立损失函数,以提高哈希码的判别能力。最后,将图正则化引入我们提出的 TDH 方法中,以保持 Hamming 空间中哈希码之间的原始语义相似性。实验结果表明,我们提出的方法在两个流行的跨模态数据集上优于几种最先进的方法。

一、介绍

        在过去的十年中,互联网和社交媒体发展迅速,互联网上的多媒体数据量急剧增加。 Internet 上的多媒体数据以多种不同的媒体类型存在,并且来自异构数据源,例如,网页可能包含文本、音频、图像和视频。尽管这些数据由不同的模态表示,但它们具有很强的语义相关性。跨模态检索是为查询和检索结果来自不同模态的场景设计的[1]。然而,如何有效地弥合语义鸿沟并捕捉来自不同模态的异构数据之间的语义相关性仍然是一个具有挑战性的问题。

        为了减少语义鸿沟,大多数跨模态方法,包括传统的统计相关[2]-[4]、跨模态图正则化[5][6]和字典学习[7],都是基于子空间学习的。将不同的模态数据映射到一个公共子空间并测量公共空间中的相似性。然而,随着数据量的增加,这些传统方法将面临计算复杂度高、搜索精度低的问题。为了解决这个问题,提出了用于大规模跨模态检索的基于散列的方法。得益于低存储成本和高查询速度,基于散列的方法越来越受到学术界和工业界的关注[8]-[10]。跨模态散列方法[11]-[13]将高维原始数据实例转换为紧凑的二进制代码,为相似的数据实例生成相似的二进制代码,然后通过快速按位异或运算计算跨模态数据之间的汉明距离。

        到目前为止,已经提出了许多具有浅层架构的基于散列的跨模态检索方法,例如媒体间散列(IMH)[14]、多模态潜在二进制嵌入(MLBE)[15]、集体矩阵分解散列(CMFH) ) [16]、潜在语义稀疏散列 (LSSH) [17]、跨模态相似性敏感散列 (CMSSH) [18] 和语义保留散列 (SePH) [19]。所有这些方法都是基于手工制作的特征,不能有效地捕捉不同模态之间的异构相关性,因此可能导致性能不理想。与浅层架构相比,深度模型可以通过增加抽象来学习多层次的表示,从而更有效地捕获异构的跨模态相关性。深度跨模态哈希(DCMH)[20]在一个统一的框架中同时进行特征学习和哈希码学习。成对关系引导的深度散列(PRDH)[21]考虑了模式内和模式间的约束。深度视觉语义散列 (DVSH) [22] 使用卷积神经网络 (CNN) 和长短期记忆 (LSTM) 分别学习每种模态的统一二进制代码。然而,DVSH 中的文本模态受限于句子或其他序列文本,这在实际应用中造成了限制。 

     在大多数现有的有监督的深度跨模态哈希方法中,监督信息是成对标签的形式,这表明两个相似的实例形成一个正对,两个不同的实例形成一个负对。这些方法中的损失函数旨在保留实例的成对相似性。然而,[20]、[21] 中的工作只保留了不直接编码相对语义相似度的成对相似关系关系。与成对标签不同,三元组包含一个查询实例、一个正实例和一个负实例,其中查询实例与正实例比负实例更相似。实例相似性关系的特征在于三元组中的相对相似性排序。此外,与成对标签相比,三元标签具有关键优势,因为它们可以灵活地捕获各种更高级别的相似性,而不仅仅是成对的二元相似/不相似陈述。最后,三元组样本可以很好地捕捉排序优化中的类内和类间变化。   

        在本文中,我们提出了一种新颖的基于三元组的深度哈希 (TDH) 方法,用于大规模跨模态检索,该方法使用深度 CNN 模型将每个模态的特征学习和哈希码学习集成到端到端网络。为了保留更丰富的语义信息,我们构建了三元组标签作为监督信息,并通过最大化给定三元组标签的可能性来计算损失。尽管 [23]-[27] 也使用三元组标签,但它们仅适用于查询数据和检索结果来自相同模态的图像检索;与这些研究不同,我们提出的方法将三元组标签扩展到跨模态检索,其查询数据和检索结果来自不同的模态。此外,为了增强过程的判别能力,我们整合了模态间和模态内三元组似然损失来学习哈希码,这样学习的哈希码可以更好地反映固有的跨模态相关性。最后,我们引入图正则化来保留汉明空间中哈希码之间的语义相似性。使用 MIRFlickr25k 和 NUSWIDE 数据集的实验证实,我们提出的方法比几种最先进的方法显示出更好的检索性能。

        本文的主要贡献可归纳如下:

        

1、我们提出了一个基于三元组的深度散列网络(TDH)用于跨模态检索,其中三元组采样策略和特定的相似性损失函数无缝地结合在一个统一的框架中。该方法有效地捕捉了相对语义相似性关系,显着提高了检索准确率。
2、提议的 TDH 使用三元组标签作为监督信息,其中三元组标签具有关键优势,因为它们可以灵活地捕获各种更高级别的相似性,并且容易产生各种约束。此外,三元组组织可以扩大训练数据的数量以缓解过拟合问题。
3、我们利用三元组标签构造不同的三元组损失函数,即模态间三元组损失、模态内三元组损失和图正则化损失,并在原始空间和汉明空间之间建立相应的哈希码相似关系,有效地保留了汉明空间中哈希码之间的原始语义相似性,并缓解了跨模态数据之间的语义差距。

        本文的其余部分安排如下。我们在第二节介绍了一些与跨模式哈希有关的相关工作。第三节介绍了我们提出的方法和理论分析。第四节详细描述了算法优化。第五节介绍了实验结果和分析。最后,第六节总结了我们的工作。

二、相关工作

        最近,跨模态哈希检索引起了相当大的关注。根据以往的研究,跨模态哈希方法大致可以分为两类:无监督方法和监督方法。

        无监督散列方法通常从数据分布中学习散列函数,以保留训练数据的结构。例如,IMH [14] 探索了媒体间一致性和媒体内一致性,并且还引入了线性回归模型来联合学习每种不同模态的一组哈希函数。 CMFH [16] 利用集体矩阵分解从不同的模态中学习潜在因子模型并生成统一的哈希码。此外,LSSH [17]通过稀疏编码捕获图像的语义结构,并通过矩阵分解获得文本的潜在概念,然后将学习到的语义特征投影到一个联合公共空间中以获得统一的哈希码。

        使用监督信息学习哈希函数的监督哈希方法可以探索来自不同模态的异构数据之间的相关性并减少语义差距,这通常可以获得比无监督对应物更高的准确性。 CMSSH [18] 将每个哈希函数识别为二进制分类问题,并在学习过程中使用提升算法。当给定一组多视图训练数据对象时,跨视图相似性搜索 (CVH) [28] 学习每个视图的哈希函数,并将相似对象投影到不同视图的相似哈希码中。语义一致性哈希(SCM)[29]利用非负矩阵分解和邻居保留算法来保留模态间和模态内的语义相关性。

        然而,大多数以前的跨模态散列方法都是基于浅层架构,不能有效地利用不同模态数据之间复杂的异构相关性。在深度神经网络 (DNN) 的开发中,深度模型被应用于跨模态哈希 [13] [20]-[22] 以有效地捕获异构数据之间的相关性。受此想法的启发,我们开发了一种集成三元组标签和图正则化的监督深度模型,以保留语义信息并增强学习哈希码的判别能力。

 

   三、用于跨模态检索的基于三元组的深度哈希网络           

        在本节中,我们将详细介绍我们用于跨模态检索的基于三元组的深度哈希方法 (TDH),包括公式和学习过程。 TDH 模型的深度架构,将特征学习和哈希码学习集成到一个统一的端到端框架中,如图 1 所示。

A.符号和问题定义

        我们首先介绍本文的符号和问题定义。我们提出的方法可以扩展到多种模式,例如图像、音频和无线电。我们使用图像和文字来解释我们的方法。粗体大写字母,如 X,代表矩阵;粗体小写字母,例如 y,是向量。此外,F∗i 表示 F 的第 i 列,G> 是 G 的转置。我们用 1 表示一个所有元素都为 1 的向量。tr(·) 和 k·kF 表示轨迹和 Frobenius 范数一个矩阵,分别。 sign(·) 为符号函数,如下:

         假设有 N 个训练实例 O = {oi}Ni=1,每个实例都具有来自文本和图像等两种模态的特征。我们使用 X = {xi}Ni=1 和 Y = {yi}Ni=1 分别表示文本模态和图像模态。 M 个三元组标签表示为 T = {(q1, p1, n1),···, (qM , pM , nM )},其中三元组索引 (qm, pm, nm) 表示索引 qm 的查询实例与索引 pm 的实例相比,与索引 nm 的实例更相似。我们通过选择具有相同语义标签的查询实例 oqm 和正实例 opm 以及来自不同语义标签的负实例 onm 来获得三元组标签。

        给定训练数据 X、Y 和三元组标签 T,我们在跨模态散列中的目标是学习两个散列函数,hx(x) ∈ {−1, 1}k 用于文本和 hy(y) ∈ {−1 , 1}k 用于图像,其中 k 是哈希码的长度。这些散列函数应该满足 T 中的语义相似性。更具体地说, distH(bxqm, bypm) 应该小于 distH(bxqm, bynm) 其中 distH(·,·) 表示两个哈希码之间的汉明距离,并且 bxi = hx(xi), by i = hy(yi) .

B. 深层架构

      我们应用了两个深度神经网络,一个用于图像模态,另一个用于文本模态。表 I 显示了图像模态的深层架构。我们采用在 ImageNet 数据集 [31] 上预训练的 CNN-F [30] 网络架构进行图像特征学习,因为它在对象分类方面表现出色。原始的 CNN-F 模型包含五个卷积层 (conv) 和三个全连接层 (f c)。映射学习的深度  特征直接进入汉明空间,我们将 f c8 层替换为具有 k 个隐藏节点的全连接哈希 (f ch) 层,如 [21] 中所示。每一层的细节在表一中给出。“kernel”表示卷积滤波器的数量和它们的感受野大小,而“stride”和“pad”分别是卷积步长和填充。 “LRN”表示是否应用局部响应归一化[32]。 “pool”是下采样因子。

        对于文本模态,我们首先使用词袋(BOW)表示将每个文本转换为向量。 BOW 用作多层感知器 (MLP) 的输入,以提取深层文本特征。 MLP 由三个全连接层组成,其最后一层被替换为具有 k 个隐藏节点的新 f ch 哈希层,与 [21] 中的图像模态相同。每个 f c 层的细节在表 II 中提供。我们可以使用其他深度网络进行特征学习,例如 AlexNet [33] 和 GoogleNet [34],这些将在未来进行研究。

结论:

首先用三元组标签,将三个实例之间的相对关系描述为监督,以便捕获跨模态实例之间更一般的语义相关性。然后,从模态间视图和模态内视图建立损失函数,以提高哈希码的判别能力。最后,将图正则化引入提出的 TDH 方法中,以保持汉明空间中哈希码之间的原始语义相似性。
        提出了一种新的散列方法,称为基于三元组的深度散列(TDH)网络,用于跨模态检索。所提出的 TDH 方法学习了一个端到端的框架来集成特征学习和哈希码学习。三元组标签被用作监督信息来捕获来自不同模式的异构数据之间的相对语义相关性。此外,我们从模态间视图和模态内视图建立损失函数,以增强哈希码的判别能力。最后,我们将图正则化引入汉明空间,以保留学习哈希码的原始语义相似性。两个流行数据集的实验结果表明,我们的 TDH 方法优于几种最先进的方法。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值