Linear Cross-Modal Hashing for Efficient MultimediaSearch--论文翻译

最新推荐文章于 2024-09-14 11:42:20 发布

MT_Joy

最新推荐文章于 2024-09-14 11:42:20 发布

阅读量226

点赞数 1

分类专栏： # 1、无监督跨膜态哈希无监督的跨膜态哈希文章标签： p2p linq 蓝桥杯

本文链接：https://blog.csdn.net/qq_42014059/article/details/122787924

版权

无监督的跨膜态哈希同时被 2 个专栏收录

7 篇文章 2 订阅

订阅专栏

1、无监督跨膜态哈希

4 篇文章 0 订阅

订阅专栏

论文链接：Linear cross-modal hashing for efficient multimedia search | Proceedings of the 21st ACM international conference on Multimedia

摘要

大多数现有的跨模态散列方法在训练阶段都存在可扩展性问题。在本文中，我们提出了一种新颖的跨模态散列方法，其对训练数据大小具有线性时间复杂度，以实现跨模态多媒体搜索的可扩展索引。考虑到每个模态的内部相似性和不同模态之间的相似性，所提出的方法旨在有效地从大规模训练数据集中学习散列函数。更具体地说，对于每个模态，我们首先将训练数据划分为 k 个簇，然后用它到簇的 k 个质心的距离来表示每个训练数据点。有趣的是，这种 k 维数据表示可以将训练阶段的时间复杂度从传统的 O(n2) o r h i g h e r 降低到 O(n)，其中 n 是训练数据的大小，从而可以在大规模数据集上进行实际学习。我们进一步证明，这种新的表示保留了每个模态的内部相似性。为了保持跨不同模态的数据点之间的相互相似性，我们将派生的数据表示转换为一个公共的二进制子空间，其中来自所有模态的二进制代码是“一致的”和可比较的。转换同时输出所有模态的散列函数，用于将看不见的数据转换为二进制代码。给定一个模态的查询，首先使用模态的哈希函数将其映射为二进制代码，然后匹配任何其他模态的数据库二进制代码。两个基准数据集的实验结果证实了所提出的方法与现有技术相比的可扩展性和有效性。

一、介绍

散列越来越流行以支持从多媒体数据中进行近似最近邻 (ANN) 搜索。 ANN 搜索的散列思想是学习散列函数，将高维数据转换为短二进制代码，同时尽可能保留原始数据的邻域关系 [13,15,21,31]。已经表明，哈希函数学习 (HFL) 是有效哈希的关键过程 [3, 12]。针对单模态数据的现有散列方法（本文中称为单模态散列方法）可以分为类 LSH 散列（例如，局部敏感散列（LSH）[7, 8]、KLSH [15] 和 SKLSH [ 21]）随机选择线性函数作为散列函数，类 PCA 散列（例如，SH [33]、PCAH [30] 和 ITQ [10]）使用训练数据的主成分来学习散列函数，以及流形类似散列（例如，MFH [26] 和 [34]），它采用流形学习技术来学习散列函数。

最近，已经提出了一些哈希方法来索引由多个模态表示的数据1（在本文中称为多模态哈希）[26, 36]，可用于促进在许多现实中检索由多个模态描述的数据-life 应用程序，例如近乎重复的图像检索。考虑到一个图像数据库，其中每个图像由多个模态描述，例如 SIFT 描述符、颜色直方图、词袋等，多模态散列从所有模态中学习散列函数以支持有效的图像检索，其中来自所有模态的相似性在对多模态查询的最终结果进行排名时会考虑模态。跨模态散列还通过分析它们的相关性从所有模态构造散列函数。但是，它用于不同的目的，即支持跨模态检索，其中一个模态的查询可以搜索另一个模态的相关结果 [2, 16, 22, 37, 38]。例如，给定一个由 SIFT 描述符描述的查询，也可以找到并返回由其他模态（如颜色直方图和词袋）描述的相关结果。

虽然很少尝试有效的跨模态散列，但大多数现有的跨模态散列方法 [16、22、27、37、38] 在训练阶段都存在高时间复杂度（即 O(n2) 或更高，其中是训练数据大小），因此无法在实际时间内从大规模训练数据集中学习。如此高的复杂性将上述方法限制在处理大规模数据集的应用程序中。例如，多模态潜在二进制嵌入（MLBE）[38] 是一种生成模型，因此在训练阶段只能使用小型训练数据集（例如，180,000 个数据点中的 300 个）。尽管跨模态相似性敏感散列（CMSSH）[2] 能够从大规模的训练数据集中学习，但它需要先验知识（即训练数据点之间的正对和负对）是预定义和已知的，这不是在大多数实际应用中都很实用。为了实现跨模态检索，跨媒体散列（IMH）[27]探索了来自不同数据源的多个模态之间的相关性并获得了更好的散列性能，但是时间复杂度为 O(n3) 的 IMH 的训练过程对于大规模跨模式哈希。

在本文中，我们提出了一种新的散列方法，称为线性跨模态散列（LCMH），以在不使用任何先验知识的情况下解决可扩展性问题。 LCMH 在训练阶段实现了训练数据大小的线性时间复杂度，从而能够从大规模数据集中进行有效学习。其关键思想是首先通过应用线性时间聚类方法将每个模态的训练数据划分为 k 个聚类，然后使用其到 k 个聚类质心的距离来表示每个训练数据点。也就是说，我们用 k 维表示来近似每个数据点。有趣的是，这种表示导致训练阶段的时间复杂度为 O(kn)。给定一个非常大规模的训练数据集，预计 k ? n.由于 k 是一个常数，因此训练阶段的总体时间复杂度与训练数据大小呈线性关系，即 O(n)。为了实现高质量的哈希函数，LCMH 还保留了每个模态中数据点之间的内部相似性以及不同模态中数据点之间的相互相似性。学习到的哈希函数保证了公共二进制子空间中不同模态描述的所有数据点是“一致的”（即不同模态的相关数据应该具有相似的二进制码）和可比性（即不同模态的二进制码可以直接比较的）。

图 1 说明了所提出的 LCMH 的整个流程图。 LCMH 的训练阶段是一个离线过程，包括五个关键步骤。第一步，对于每个模态，我们将其数据划分为 k 个集群。在第二步中，我们用它到 k 个集群质心的距离来表示每个训练数据点。第三步，以线性时间复杂度有效地学习哈希函数，并有效地保持内部和相互相似性。第四步，将数据库中的所有数据点用k维表示近似，然后用第五步学习的哈希函数映射成二进制代码。在在线搜索过程中，首先将一个模态的查询与其在该模态中的 k 维表示进行近似，然后将其映射为具有该模态哈希函数的查询二进制代码，然后匹配数据库二进制代码以找到相关的任何其他模态的结果。在两个基准数据集上的广泛实验结果证实了所提出的方法与现有技术相比的可扩展性和有效性。

本文的其余部分安排如下。相关工作在第 2 节中进行了回顾。拟议的 LCMH 及其分析在第 3 节中进行了介绍。第 4 节报告了结果，论文在第 5 节中总结。

二、相关工作

在本节中，我们回顾了三个主要类别的现有散列方法，包括单模态散列、多模态散列和跨模态散列。

在单模散列中，早期的工作，如 LSH 类散列方法 [7、8、15、21] 基于随机投影构建散列函数，并且通常是无监督的。尽管它们具有一些渐近理论特性，但类似 LSH 的散列方法通常需要长二进制代码和多个散列表来实现合理的检索精度 [20]。这导致查询时间长，存储成本高。最近，机器学习技术已被应用于提高散列性能。例如，PCAlike 散列 [10,30,33] 通过保留原始数据的最大协方差来学习散列函数，并且在 [14,17,29] 中被证明优于 LSH 类散列。流形散列 [18, 26] 采用流形学习技术来学习散列函数。此外，一些散列方法通过充分利用数据的先验知识来进行散列函数学习。例如，监督散列方法 [14、17、19、24、28] 使用预先提供的数据对提高散列性能，假设数据集中存在“相似”或“不同”对。还有一些半监督散列方法[30, 34]，其中使用监督项来最小化标记数据的经验误差，而无监督项用于最大化所需属性，例如方差和单个位的独立性。二进制代码。

多模态散列旨在对多模态数据进行散列函数学习。为此，[36]中的方法首先使用迭代方法来保持训练示例之间的语义相似性，然后保持哈希码与为多模态设计的相应哈希函数之间的一致性。方法多特征散列（MFH）[26]保留了每个模态的局部结构信息，并且全局考虑所有模态的对齐，以学习一组散列函数，用于实时大规模近重复网络视频检索。

跨模式散列也对多模式数据进行编码。然而，它更侧重于发现不同模态之间的相关性以实现跨模态检索。跨模态相似性敏感散列 (CMSSH) [2] 是第一个用于跨模态检索的跨模态散列方法。但是，CMSSH 只考虑了内部相似性，而忽略了内部相似性。跨视图散列 (CVH) [16] 将谱散列 [33] 扩展到多模式情况，旨在最小化相似点的汉明距离并最大化不同点的汉明距离。但是，它需要为所有数据点构建相似度矩阵，这导致训练数据大小的二次时间复杂度。 Rasiwasia 等人，[22] 采用典型相关分析（CCA）来进行哈希函数学习，这是 CVH 的一个特例。最近，多模态潜在二进制嵌入（MLBE）[38]使用概率潜在因子模型来学习哈希函数。与 CVH 类似，它也具有构建相似度矩阵的二次时间复杂度。此外，它使用抽样方法来解决样本外扩展问题。 Co-regularized hashing (CRH) [37] 是一个增强的 co-regularization 框架，它为每个模态中的二进制代码的每一位学习一组散列函数。然而，它的目标函数是非凸的。跨媒体散列（IMH）[27]旨在发现用于学习散列函数的通用汉明空间。 IMH通过强制具有相似语义的数据应该具有相似的哈希码来保留每个单独模态的内部相似性，并通过保留嵌入在每个模态中的局部结构信息来保持不同模态之间的相互相似性。

三、线性跨模态哈希

在本节中，我们描述了所提出的 LCMH 方法的细节。为了解释我们的基本思想，我们首先从 3.1 节到 3.5 节关注双峰数据的哈希函数学习，然后在 3.6 节将其扩展到多模态数据的一般设置。在本文中，我们使用粗体大写、粗体小写和字母分别表示矩阵、向量和尺度。此外，X 的转置记为 XT ，X 的逆记为 X−1，矩阵 X 的迹算子记为符号“tr(X)”。

3.1问题描述

假设我们有两个模态，X(i) = {x(i) 1 , ..., x(i)n }; i = 1, 2，描述相同的数据点，其中 n 是数据点的数量。例如，X(1) 是从图像内容中提取的 SIFT 视觉特征，X(2) 是从图像周围的文本中提取的词袋特征。一般来说，不同模态的特征维度是不同的。

与 [4, 11] 中的相同假设，即多个模态之间存在不变的公共空间，LCMH 的目标是有效和高效地学习不同模态的哈希函数以支持跨模态检索。为此，LCMH 需要生成散列函数： f (i) : x(i) ?→ b(i) = {−1, 1}c, i = 1, 2，其中 c 是码长。请注意，所有模态都具有相同的代码长度。此外，LCMH 需要确保在生成的公共汉明空间中保留每个单独模态内和不同模态之间的邻域关系。为此，设计了 LCMH 以同时保留 Hamming 空间中原始特征空间的内部相似性和内部相似性。

学习哈希函数的主要思想如下。每个单独模态的数据首先被转换为它们的新表示，表示为 Z(i)，以保持内部相似性（参见第 3.2 节）。然后将由 Z 表示的所有模态的数据映射到一个公共空间，其中保留了相互相似性以生成散列函数（参见第 3.3 节）。最后，从散列函数生成的值被二值化到汉明空间（见第 3.4 节）。通过学习的哈希函数，查询和数据库数据可以映射到汉明空间，以通过有效的二进制代码匹配来促进快速搜索。

3.2内部相似性保留

内部相似性保留旨在在将每个模态中的训练数据点映射到其新表示所跨越的新空间后，保持它们之间的邻域关系。为了实现这一点，类似流形的散列 [26、27、36、39] 构造了一个相似度矩阵，其中每个条目代表两个数据点之间的距离。在这样的矩阵中，每个数据点可以被视为一个 n 维表示，表示它与 n 个数据点的距离。通常，数据点的邻域由它的少数最近邻描述。到保留每个数据点的邻域，在 n 维表示中，只有少数与其最近邻对应的维度是非零的。换句话说，n 维表示是高度稀疏的。然而，构建这样一个稀疏矩阵需要二次时间复杂度，即 O(n2)，这对于大规模数据集是不切实际的。

从稀疏的 n 维表示中观察到，只有很少的数据点用于描述数据点的邻域。这促使我们推导出一个较小的 k 维表示（即 k ? n）来近似每个训练数据点，旨在降低构建邻域结构的时间复杂度。这个想法是从训练数据集中选择 k 个最具代表性的数据点，并使用每个训练数据点到这 k 个代表性数据点的距离来近似每个训练数据点。为此，在本文中，我们使用可扩展的 k-means 聚类方法 [5] 生成 k 个质心，将其作为训练数据集中 k 个最具代表性的数据点。已经表明，k 个质心具有强大的表示能力，可以充分覆盖大规模数据集 [5]。

更具体地说，给定第一个模态 X(1) 中的训练数据集，我们不是将每个训练数据点 x(1) i 映射到导致二次时间复杂度的 n 维表示，而是将其转换为 k 维表示 z (1) i ，使用获得的 k 个质心，用 m(1) i 表示，i = 1, 2, ..., k。

对于 z(1) i ， i t s j-th 维携带从 x(1) i 到第 j 个质心 m(1) j 的距离，表示为 z(1) ij 。

为了获得 z(1) ij 的值，我们首先计算 x(1) i 和 m(1) j 之间的欧几里得距离，即

在哪里||.||代表欧几里得范数。

五、结论

在本文中，我们提出了一种新颖有效的跨模态散列方法，即线性跨模态散列（LCMH）。主要思想是用更小的k维近似来表示每个训练数据点，这样可以保持内部相似性并降低学习哈希函数的时间和空间复杂度。然后我们映射来自所有模态的训练数据的新表示到一个共同的潜在空间，其中保留了相互相似性并获得了每个模态的哈希函数。给定一个查询，它首先被转换成它的 k 维表示，然后用学习的哈希函数映射到汉明空间，以匹配数据库二进制代码。由于来自不同模态的二进制代码在汉明空间中具有可比性，因此 LCMH 可以有效且有效地支持跨模态检索。两个基准数据集的实验结果表明，LCMH 在实际时间成本方面明显优于现有技术。