Latent Semantic Sparse Hashing for Cross-ModalSimilarity Search(LSSH)--文献翻译

SIGIR 2014

论文链接:Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval | ACM Conferences

摘要

        基于哈希的相似性搜索方法在具有大量文本和图像的大型多媒体数据库上进行有效和高效的跨模态检索已经引起了相当大的关注。跨模态哈希的核心问题是如何在哈希函数学习过程中有效地构建本质上异构的多模态表示之间的相关性。与典型相关分析 (CCA) 类似,大多数现有的跨模态哈希方法通过线性投影将异构数据嵌入到联合抽象空间中。然而,这些方法未能更有效地弥合语义鸿沟,并无法捕获高级潜在语义信息,这已被证明可以为图像检索带来更好的性能。为了应对这些挑战,在本文中,我们提出了一种新颖的潜在语义稀疏哈希(LSSH),通过采用稀疏编码和矩阵分解来执行跨模态相似性搜索。特别是,LSSH 使用稀疏编码来捕获图像的显着结构,并使用矩阵分解从文本中学习潜在概念。然后将学习到的潜在语义特征映射到一个联合抽象空间。此外,采用迭代策略有效地得出最优解,并帮助 LSSH 高效、自动地探索多模态表示之间的相关性。最后,通过量化通过高级抽象空间生成统一的哈希码。在三个不同数据集上的广泛实验突出了我们的方法在跨模式场景下的优势,并表明 LSSH 明显优于几种最先进的方法。

1、介绍

        相似性或最近邻 (NN) 搜索是一种从查询对象集合中搜索语义相关结果的方法,它为许多重要应用奠定了基础,例如信息检索、数据挖掘和计算机视觉。基于散列的方法 [10, 6] 是最著名的近似最近邻搜索 (ANN) 方法之一,近年来因其在海量数据中的巨大效率提升而引起了相当大的兴趣。散列的目标是学习数据的二进制代码表示,同时保留原始特征空间中的相似性结构。最著名的模型之一是局部敏感散列 (LSH) [1],它采用随机线性投影将特征向量映射到二进制代码,在空间和时间上都非常有效。然而,LSH 在实践中可能会导致代码无效,因为它与数据无关 [34]。一些机器学习技术被用来设计更有效的散列来克服这个问题,例如Boosting算法、受限玻尔兹曼机、流形学习、监督学习、内核学习和PCA,它们分别生成参数敏感散列[26]、语义散列[25] ]、光谱散列 [30]、监督散列 [16]、核散列 [13] 和 PCA 散列 [29]。此外,一些文献将汉明空间的量化考虑在内,并取得了较好的结果,如 K-means Hashing [8]、ITQ Hashing [7] 和 Double-Bit Hashing [12]。

        大多数现有的散列方法只能应用于单峰数据。然而,随着 Web 上多媒体内容的快速增长,如 Wikipedia、Flickr 和 Twitter,跨模态检索问题(针对给定查询返回所有模态的相似结果)引起了越来越多的关注,并且出现了更多关于它的研究。以维基百科为例,它包含图像和文本。当给出查询词或图片时,系统应返回相关文章和图像。这是许多实际应用的核心[23]。然而,在异构跨模态数据集上设计有效和高效的哈希方法仍然是一个悬而未决的问题。

        

 图一:提议的 LSSH 和现有的跨模式哈希之间的区别,用玩具数据说明上)LSSH首先将文本和图像从它们各自的自然空间映射到两个同构的潜在语义空间,然后将语义空间投影到一个联合的高级抽象空间。潜在语义空间分别使用稀疏编码和矩阵分解来学习。底部)现有的交叉视图模型将文本和图像直接映射到联合低级抽象空间。最后,在所有哈希方法中将学习到的抽象空间量化为汉明空间。

        跨模态哈希函数学习(HFL)的核心问题是如何在HFL过程中构建本质上异构的多模态表示之间的相关性。最近,一些研究设计了新的散列技术,将多模态数据索引到一个共同的汉明空间 [33、14、11、3、36、27]。如图 2 所示,类似于典型相关分析 (CCA) [9],这些模型找到线性投影以将异构数据嵌入到联合抽象空间中,同时最大化训练集上图像和文本之间的互相关。然后应用量化规则将抽象表示映射到二进制哈希码。在复杂情况下,即多模态数据(例如视觉特征和文本特征)之间的语义差距很大,但是,这些模型无法提取有用的联合特征,因为它们无法捕获常见的潜在信息。因此,它们在处理复杂的多模式数据时无法生成有效的哈希码。

        更多的工作表明,将图像和文本的语义抽象与联合空间中互相关的显式建模相结合的模型可以在跨多媒体检索中取得更好的结果[19,23,24]。受此观察的启发,我们提出了一种新颖的潜在语义稀疏散列 (LSSH) 算法来学习具有文本和图像的多媒体数据源的二进制代码。如图 1 所示,LSSH 分别在一个新的潜在语义空间中表示文本和图像特征,其中同一主题的异构表示将显示更常见的属性 [23, 24]。事实上,LSSH 使用稀疏编码 (SC) 来捕获图像的显着结构(例如边缘),并使用矩阵分解 (MF) 从文本中学习潜在概念。然后将学习到的潜在语义特征映射到一个联合抽象空间。此外,采用迭代策略推导出最优解,有助于 LSSH 在 HFL 过程中高效、自动地探索多模态表示之间的互相关。最后,通过量化从高级抽象空间生成统一的哈希码。 LSSH 的贡献可以总结如下:

        

1、我们提出了一种新的跨模式哈希框架来有效地构建异构数据之间的相关性。此外,所提出的方法利用 SC 和 MF 合并多个潜在语义描述以生成可区分的二进制代码。
2、一种迭代策略用于帮助 LSSH 高效、自动地探索多模态表示之间的互相关。
3、在三个数据集上进行的大量实验突出了 LSSH 在跨视图场景下的优势,并表明 LSSH 明显优于几种最先进的方法。特别是,LSSH 在长代码的跨模态检索方面显示出显着的改进。

        本文的其余部分安排如下。我们在第 2 节的同一框架内制定了几种相关的跨模态散列方法和典型相关分析 (CCA)。第 3 节介绍了我们提出的方法。第 4 节提供了对三个数据集的广泛实验验证。结论在第 5 节中给出。

2、相关工作

        在本节中,我们展示了多种跨模式方法 (CMH),包括 CCA [9]、数据融合散列 (DFH) [3] 和跨视图散列 (CVH) [14]相关性分析框架,其中相关性被用作目标函数。显然,异构特征的相关性与跨模态检索任务的经验 ANN 性能直接相关。

        2.1 典型相关分析

        DFH [3] 以有监督的方式将来自两个任意空间的输入数据嵌入到汉明空间中。给定样本对 (xi, yi) 和相似度标签 si ∈ {+1, −1},D F H 最大化:

        2.2数据融合哈希

        2.3 跨视图哈希

         图二.LSSH 和现有 CMH 方法的流程图,用玩具数据说明上)现有的 CMH 方法为每个实例模式学习独立的哈希码下)LSSH,一种跨模态的集成散列方法,通过统一的散列码表示图像和文本特征。

        所有前面提到的跨模态模型都假设异构数据可以直接嵌入到一个公共抽象空间中。但是,该假设可能不适合现实世界的场景,尤其是当语义差距多模态数据(例如视觉特征和文本特征)之间的差异很大,可能会显着降低跨模态相似度搜索的准确性。此外,先前的工作表明,高级潜在语义信息可以为图像检索带来更好的性能,并更有效地弥合语义鸿沟。因此,所提出的 LSSH 在潜在语义空间中构建了两种模态之间的相关性。

3. 跨模态的潜在语义稀疏哈希

       3.1 模型制定

        假设 O = {oi}ni=1 是一组多模态实例,它只由一张图像及其伴随的文本组成,即 oi = (xi, yi),其中 xi∈ Rm 是 m 维图像描述符, yi ∈ Rd 是 d 维文本特征(通常,m 不等于 d)。给定码字长度 k,LSSH 的目的是学习一个集成的二进制代码,它可以有效地弥合异构数据(即图像和文本特征)之间的语义鸿沟,同时保留实例的内在相似结构。如图 2 所示,任何类型的查询都将根据相关的学习哈希函数映射到一个公共汉明空间,这使得 LSSH 可以处理具有部分缺失模态的查询。线性扫描哈希表,系统返回给定映射查询的所有模态的相似结果。 CMH 对于在线相似性搜索任务非常有效,因为在计算二进制码之间的汉明距离时只应用了位 XOR 操作。此外,与现有的 CMH 为一个实例的每个模态学习独立的哈希码相比,LSSH 可以将二进制代码的在线搜索时间和存储空间减少一半,同时显着提高检索精度。

        3.2 潜在语义互相关

         第一步:原始图像和文本数据分别映射到各自潜在语义空间。

        第二步: 然后通过线性投影将同构的潜在语义特征映射到一个公共的高级抽象空间中。

        保持同样实例

        二进制哈希码由非线性量化函数获得

 3.3学习潜在语义表示图像

        首先,自然图像通常可以用少量的结构图元来描述[22],函数(7)中的稀疏约束允许学习的表示捕捉显着结构。其次,过完备字典为低级特征提供了足够的描述能力。基于这些观察,我们使用稀疏编码来捕获 LSSH 中图像的显着结构

        其中 B ∈ Rm×M 是过完备基组,即 M > m,|| ·||F表示Frobenius范数,λ>0是平衡重构误差和稀疏度的参数。文本矩阵分解作为从文本中学习概念或潜在主题的最成功的工具之一,在文本挖掘和信息检索中有着广泛的应用。令 Y 为一组 d 维文本描述符,即 Y = [y1, ..., yn] ∈ Rd×n,LSSH 通过矩阵分解学习潜在概念:

        

         

 5、结论

        在本文中,我们提出了一种新颖的哈希方法,称为潜在语义稀疏散列,用于图像和文本之间的大规模跨模态相似性搜索。具体来说,我们利用稀疏编码来捕获图像的高级显着结构,并利用矩阵分解从文本中提取潜在概念。然后将这些高级语义特征映射到联合抽象空间。通过合并来自异构数据的多个综合潜在语义描述,可以提高搜索性能。我们提出了一种迭代策略,可以高效地探索多模态表示之间的相关性,并弥合潜在语义空间中异构数据之间的语义鸿沟。

        我们对由图像和文本组成的三个多模态数据集进行了广泛的实验。与几种最先进的跨模态散列方法相比,LSSH 的卓越和稳定的性能验证了它的有效性。对于较长的哈希码,LSSH 可以更准确地进行矩阵分解并编码更多信息,从而获得更好的性能,而基线方法在较长的哈希码时性能较差,因为其目标函数的正交性约束。在大规模数据集 NUS-WIDE 上的实验表明,LSSH 可以轻松处理样本外,并具有处理大规模数据库的能力。参数敏感性分析表明,LSSH对模型参数具有很强的鲁棒性,可以在较宽的参数值范围内实现稳定而优越的性能。我们的收敛性研究表明,所提出的学习算法确实是有效的,并且可以有效地解决。对查询多样性的研究表明,不同查询类型对搜索性能的影响,组合来自多个来源的信息有助于提高搜索性能。

        最后稍微简短点总结

        利用稀疏编码和矩阵分解技术分别捕获图像和文本的显著结构。它首先将文本和图像模态相对应的私有表示空间映射为两个同构的潜在语义空间,然后将语义空间投射到一个联合的高层抽象语义空间。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值