Set and Rebase: Determining the Semantic Graph Connectivity for UnsupervisedCross Modal Hashing-文献笔记_unsupervised contrastive cross-modal hashing-CSDN博客

本文链接：https://blog.csdn.net/qq_42014059/article/details/122712293

国际人工智能联合会议（International Joint Conference on Artificial Intelligence, 简称为IJCAI）是人工智能领域中最主要的学术会议之一。

摘要

无监督跨模态哈希的无标签性质阻碍了模型利用精确的语义数据相似性。现有研究通常通过原始特征空间中的启发式几何先验来模拟语义。然而，这会给模型带来很大的偏差，因为原始特征不能完全代表底层的多视图数据关系。为了解决上述问题，在本文中，我们提出了一种新的无监督散列方法，称为语义重基跨模态散列（SRCH）。定义了一种新颖的“Set-andRebase”过程来初始化和更新训练数据的跨模态相似度图。特别是，我们根据模内特征几何基础设置图，然后根据散列结果交替对其进行变基以更新其中的边。我们开发了一个交替优化例程来重新定位图并使用封闭形式的解决方案训练散列自动编码器，以便有效地训练整个框架。我们在基准数据集上的实验结果证明了我们的模型相对于最先进的算法的优越性。

1、介绍

大数据时代，由于计算复杂度低且对大规模多媒体检索的存储要求低，跨模态散列得到了持续的研究关注[Zhang et al., 2018a]。该领域的主要挑战是尽可能多地保留相似性信息，同时减轻模态异质性。

在现有的方法中，有监督的跨模态哈希 [Jiang and Li, 2017;沉等人，2017； Erin Liong 等人，2017 年；唐等人，2016；布朗斯坦等人，2010； Zhang and Li, 2014] 获得了更好的检索性能。这些技术利用可以由图像和文本数据共享的标签信息来利用不同模态样本之间的相似性。然而，标记的数据集是有限的，它可能会导致标记大规模多模态数据集的巨大成本手动，这限制了监督算法的实用性，尽管它们表现出色。

图 1：我们的设置（左）和变基（右）过程的示意图。语义图的虚线表示这些边缘的概率较小，实线表示高可能性边缘。红线表示仅存在于一种模式中的连接。

免于手动数据标记，与有监督的对应物相比，无监督的跨模态哈希被认为是一种更实用的替代方案。目前有两种主要的无监督跨模态检索算法，其主要关注点分别是量化和相似性搜索。跨模态量化最小化二进制代码和原始数据的低维投影之间的差距 [Zhang and Wang, 2016;入江等人，2015；龙等人，2016]。第二种跨模态相似性搜索方法包括 Cross View Hashing (CVH) [Kumar and Udupa, 2011]、Collective Matrix Factorization Hashing (CMFH) [Ding et al., 2014]、Predictable Dual-view Hashing (PDH) [Rastegari et al., 2013] 和跨媒体散列 (IMH) [Song et al., 2013]。尽管这些模型取得了令人瞩目的进展，但该领域仍然存在一些挑战。因此，我们根据以下三个问题来激励我们的工作。

首先，在没有标签的情况下确定数据语义关系的难度。无监督散列技术基本上无法访问实际的数据语义。为了获得合理的检索结果，现有的几种单模态[Liu et al., 2011; 2014;苏等人，2018；张等人，2018b；Liu et al., 2017] 和跨模态方法 [Jian et al., 2018] 采用启发式几何先验，即根据原始特征距离确定数据相关程度，并在训练期间保持不变。这种解决方案显然不是最优的，因为原始特征通常不是为最近邻搜索而设计的，而且它们之间的距离可能会存在很大偏差。一种解决方案是在训练期间逐步更新这些语义关系，这已在 [Shen et al., 2018] 中被证明是有效的。然而，[Shen et al., 2018] 仅设计用于单模态散列，无法处理多模态数据。

第二，经验相似性的跨模态一致性。通过上面讨论的启发式语义模拟，每个模态都会根据其几何先验有自己的相似性连接。两个样本在不同的模态/视图下可能会出现相似性分歧，这会混淆训练过程。这个问题还需要相似性更新和优化来得到一个模态统一图。

第三，训练过程中数据语义连接的稀疏性。稀疏相似图节省了训练时间，而密集连接的相似图可能会引入不希望的噪声。从这个意义上说，需要在训练期间简化相似度图，只保留清单连接。

在本文中，为了解决上述问题，我们提出了一种新的无监督方法，称为语义重基跨模态散列（SRCH）。我们定义了一个特殊的“Set-andRebase”例程来学习语义感知图以获得更好的编码性能。 “set”操作构造一个几何稀疏图，每个模态中包含单峰邻域关系，然后“rebase”操作与二进制代码学习交替耦合，根据代码学习结果调整和拟合几何图结构。我们的方法使用受 RCC [Shah and Koltun, 2017] 和 COMIC [Peng et al., 2019] 启发的稀疏图结构来保留隐藏在来自不同模态的原始数据中的相似性信息。为了将来自不同模态的数据映射到一个公共空间，为了简单起见，我们假设来自不同模态的相同样本生成的二进制代码在训练集上是相同的。这是合理的，因为一个样本的不同模态数据描述了同一个对象，并且只能用一个代码来表示它。作为一种强大的无监督约定，采用自动编码方式来提高我们模型的鲁棒性。我们的方法的概述结构可以在图 2 中找到。该方法的主要贡献总结如下。

1、我们提出了一种“Set-and-Rebase”机制来学习训练集上的稀疏图结构，包括几何和语义图，以保留二进制代码学习的相似性信息。

2、与现有的无监督跨模态哈希方法不同，我们的方法侧重于相似性保持和量化，以获得满意的检索性能。此外，还包括了自动编码结构来改进我们的模型，这在跨模态哈希中很少使用。

3、对四个流行的数据集进行了综合实验评估，包括 Wiki [Rasiwasia et al., 2010]、MIRFlickr-25K [Huiskes and Lew, 2008]、MSCOCO [Lin et al., 2014] 和 NUS-WIDE [Chua et al. , 2009]，表明所提出的模型明显优于最先进的无监督方法。

2、方法论

尽管我们的方法可以用于多模态数据集，但为了简单起见，我们在两个模态数据集上进行了实验。令 XV ∈ RdV ×n 和 XT ∈ RdT ×n 分别表示 n 个训练样本的归一化图像特征和文本向量，其中 dV 和 dT 分别是图像特征和文本向量的维度。我们的任务是将这些图像特征和文本向量映射到 l 位二进制哈希码 BV 或 BT 中，其中 Bg ∈ {+1, -1}l×n, g ∈ {V, T }。因为我们希望在训练过程中将图像特征和对应的文本向量映射到同一个汉明空间中，为了简单起见，我们在训练集上设置了 BV = BT = B。

2.1 模型概念

SRCH 的整体流程如图 2 所示。我们的模型遵循自动编码模式，其中图像和文本样本提供自己的投影仪。因此，瓶颈上的潜码被量化为最终的哈希码。我们根据原始特征空间的几何先验设置（即初始化）跨模态语义图，并以交替的方式将图与其他模型参数重新组合。

2.2 稀疏图设置和变基

在我们的设置阶段，构建了不同模态的几何稀疏图结构，并且这些几何图在训练期间是固定的。由于算法不同，构建稀疏图结构的方法也多种多样。一种典型的方法是在最近的几个节点中搜索任意节点，这样可以避免孤立点，更加灵活。我们使用这种策略来构建我们的稀疏图，该图可以像 Eq 一样公式化。 (1)。方程中的e(i,j)表示连接样本xi和xj的无向边，N N(xj,k)表示样本xj的k个最近邻的集合。邻居数k的阈值决定了包含相似信息的量，

图 1 的左半部分是我们在图像（上）和文本（下）域上构建的几何稀疏图的示意图。相同颜色的圆圈是来自同一类的样本，由于缺少标签信息，该图中红色的部分连接错误，因为这些样本对在特定域中彼此接近，例如猫和狗.这些接近的样本通过它们的相似性信息连接在一起，构成了几个簇，其数量取决于阈值。

图 2：我们提出的基于语义的跨模式散列（SRCH）的框架。 Set 和 Rebase 步骤绘制在虚线框中，在整个训练过程中逐渐学习数据相关性。

通过代码相似性重新设置图基

在 rebase 阶段，我们使用从 0 到 1 的连续实值来表示样本对之间语义连接的概率，而不是二进制值来进行图融合。这些概率值是根据两个样本在各种模态中的相似性来学习的，写成方程。 (2)，其中Φ(xi, xj)的详细表示将在下面给出。一般来说，两个图中存在的那些连接的概率大于只存在于一个图中的那些连接的概率。对于那些既不存在于图像域也不存在于文本域的连接，概率值设置为零。迭代学习过程如图 1 的右半部分所示。

2.3目标函数

自动编码目标

为了在图像域和文本域中生成包含足够相似性信息的有效二进制代码，使用了自动编码器的结构，其损失函数如下所示。

其中 g ∈ {V, T } 和第二个约束 BBT = nI 旨在生成相互独立的二进制代码。

在等式。 (3)，第一项旨在减少映射的低维特征和离散二进制代码之间的差距。为简单起见，使用 W 的转置矩阵代替逆映射矩阵，因此在投影矩阵上添加了约束 W Tg Wg = I。在这种情况下，正则化项 kWgk2F 是不必要的，因为 kWgk2 F = tr(W Tg Wg) = tr(I) = const。

语义损失

为了允许生成的二进制代码检索跨模态样本，从图像和文本集中学习一个稀疏语义图 S，用于提高哈希码 B 的质量，S(i,j) 表示样本 i 之间的连接概率和 j。 S的更新过程将在下一部分详细介绍。

这里 Z 是输入特征的连续低维嵌入，由两种模式共享，类似于训练集 B 的二进制代码。为简单起见，我们假设 Z 的维度等于 B。在这个等式中，二进制代码 B 替换为Z 因为连续欧几里得空间的距离比离散的汉明空间包含更多的信息。此外，我们希望它们彼此接近，如下所示。

此外，等式中的符号 εg。 (4) 是我们在图像域 (g = V ) 或文本域 (g = T ) 构建的稀疏图，Cg(g ∈ {V, T }) 是该稀疏图中边的权重，以平衡目标函数中的每个数据点。 Cg(i,j) 的计算在方程式中给出。 (6)。

方程中的变量 ag(m)。 (6) 是图中第 m 个数据点的度数，分子是数据点的平均度数。

走向语义图稀疏性

为了加强 εg 中存在的边的语义连接，在全为矩阵的语义图 S 上添加了最小二乘误差约束。每个域 g ∈ {V, T } 中的目标函数如下所示。

这里 g ∈ {V, T }。我们对每种模式的最终损失如下所示

我们的整个损失可以写成：

2.4 Optimization

在这一部分中，我们尝试从方程求解 B 和 Wg 的最优值。 (9)。由于总共有四个变量并且它们相互耦合，因此问题分为四个步骤，如下所述。

W步。在这个阶段，B 是固定的。考虑到约束 W Tg Wg = I，与 Wg 相关的整个损失函数可以简化为以下表达式，

其中条件 BBT = nI 也用于简化过程。 Wg 的最优解可以用封闭形式写为方程。 (11) 使用 SVD 算法，这在 [Hu et al., 2018] 中得到了证明

其中 U 和 Q 是 XgBT 的紧凑奇异值分解 (SVD) 的左右奇异向量。Z 步。固定除Z以外的所有变量，然后对(9)式对Z求导，可得

3 实验

3.1 实验设置数据集。

3.3 Ablation Study我们在四个典型数据集上进行了实验，包括 Wiki [Rasiwasia et al., 2010]、MIRFlickr25K [Huiskes and Lew, 2008]、MSCOCO [Lin et al., 2014] 和 NUS-WIDE [Chua et al., 2009] .详细的实验设置列为选项卡。 2.

实施细节

对于我们所有的实验，我们遵循最近的惯例，使用 VGG-16 fc7 特征作为尺寸为 4096 的图像侧输入和通用句子编码器特征 [Cer et al., 2018] 用于文本表示，其尺寸为512. α、β 和 λ 都是我们实验的超参数，在我们的模型中它们的值分别设置为 0.0001、0.001 和 10。并且m-kNN算法中的参数k设置为10。

3.2 与现有方法基线的比较。

由于无监督的跨模态哈希算法到目前为止还很有限，尤其是近年来，我们将我们的 SRCH 与本文中的六种非深度方法进行了比较，包括 CVH [Kumar and Udupa, 2011]、CMFH [Ding et al., 2014] , PDH [Rastegari et al., 2013], ACQ [Irie et al., 2015], IMH [Song et al., 2013] 和 QCH [Wu et al., 2015]。此外，我们还与一个有监督的非深度模型 SCM [Zhang and Li, 2014] 和两个深度无监督模型 UGACH [Jian et al., 2018] 和 UCH [Chao et al., 2019] 进行了比较，以证明我们的改进。值得注意的是，除了 SCM 之外的这些方法都是无监督的跨模态散列技术。所有这些方法都使用与我们相同的特征作为输入，我们使用原作者提供的代码重现所有结果。

定量结果

表中列出了图像查询文本检索（I2T）和文本查询图像检索（T2I）的平均精度（MAP）结果。 1.可以观察到，无论跨模态检索任务和代码长度如何，我们的方法在所有四个数据集上都优于其他方法，这证明了该方法的有效性。具体而言，与其他非深度算法相比，我们在 Wiki 数据集上通过图像查询的文本检索性能在 16 位、32 位和 64 位上至少提高了 17%，而我们通过文本查询的图像检索性能超过了这些比较方法 3.18 %、3.33% 和 2.55% 用于不同长度的二进制码。在其他三个数据集上，我们的方法的改进也很明显，特别是与那些无监督的非深度跨模态哈希技术相比。图 3 还报告了所有无监督非深度跨模态散列技术的相应 Precision-Recall (P-R) 曲线。

定性结果

有选择地报告了一些检索结果，以说明我们模型的经验性能。图 4 显示了一个随机选择的 T2I 查询和相应的检索结果。我们的方法设法检索正确的图像，而其他方法根据标签匹配结果有一些失败。具体来说，我们的前 10 个检索图像包含大部分文本信息，而其他的正确结果仅匹配一个关键字与查询语句。

3.3消融研究

成分分析。在本节中，我们对模型的结构进行了修改，以了解每个组件的重要性。为简单起见，方程式的第一项。 (3) 缩写为 QL (Quantization Loss)，第二项称为 RL (Reconstruction Loss)，等式的后三项称为 RL（Reconstruction Loss）。 (8) 简化为 SL (Similarity-preserving Loss)。我们的消融研究结果列于表中。 3 表中符号“w/o”表示“无”。标签。图 3 表明，删除我们学习目标的任何组成部分都会导致检索性能下降。在这三种损失结构中，相似性保持损失的效果要大于其他两部分损失。具体来说，这部分损失在 MSCOCO 上至少可以改善 8.7%。量化损失和重建损失对跨模态结果有类似的影响，而后者似乎更重要。从表格中，我们可以发现所有这些组件在我们的方法中都很重要，并且这个实验反映了我们与其他无监督方法相比的优势。

超参数。还分析了超参数。我们分别在图 5 (a)、(b) 和 (c) 中说明了 α、β 和 λ 的不同损失惩罚对 Wiki 数据集的影响 [Rasiwasia et al., 2010]。可以清楚地看出，我们的模型对这些惩罚权重不是非常敏感，这表明它可以方便地在其他数据集上进行训练和扩展，并且结果具有高度可重复性，且训练技巧最少。我们还为训练图的 Set 操作评估不同的 k 值。同样，该模型接受不同的 k 值，因为我们的 Rebase 步骤始终可以在训练期间找到用于散列的最佳图连接。因此，在训练中涉及图更新的想法得到认可，因为图初始化不再主导最终的检索性能。

4 结论

本文提出了一种新的无监督交叉模态哈希方法，利用稀疏图结构利用相似性信息来解决无监督算法中的退化问题。我们充分利用了相似性保持和量化策略以及重构，因此该方法可以获得比其他无监督哈希算法更满意的性能。这种优势可以在上述四个流行的跨模态检索数据集的 MAP 值、P-R 曲线和定性检索结果方面找到。此外，我们的消融研究和超参数分析证明了该模型在许多方面的有效性。