《Label-affinity Self-adaptive Central Similarity Hashing for Image Retrieval》

h3214463785

于 2023-06-23 20:25:59 发布

阅读量296

点赞数 2

文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/h3214463785/article/details/131338743

版权

这篇论文介绍了一种名为Label-affinity Self-adaptive Central Similarity Hashing (LSCSH)的图像检索方法。

首先，论文提到了使用哈希编码来实现高效的图像检索。哈希编码将图像映射为二进制码，使得相似的图像具有相似的哈希码。

接下来，论文提出了LSCSH方法，该方法利用标签关联性和自适应中心相似性来学习哈希编码。具体来说，LSCSH方法包括以下几个关键步骤：

特征提取：使用常见的骨干网络提取图像的特征。
哈希中心生成：设计了一个多层感知器作为哈希中心生成器，根据标签的语义相关性生成哈希中心。该生成器考虑了标签嵌入之间的关系，以保持哈希中心之间的距离足够大，并与标签的语义信息一致。
权重Softmax损失：通过设计加权Softmax损失函数，将每个哈希码推向其对应的哈希中心，并使其远离不适当的哈希中心。
异步学习机制：采用异步学习机制对模型进行优化，提高训练效率和性能。

通过在5个图像数据集上进行大量实验，论文证明了LSCSH方法相比于现有的图像哈希方法具有更好的图像检索性能。

总而言之，这篇论文介绍了一种基于标签关联性和自适应中心相似性的哈希编码方法，用于提高图像检索的准确性和效率。

是一篇关于图像检索的论文。该方法通过将一个图像映射为一个二进制码向量，来实现快速高效的图像检索。

具体来说，该方法采用了“自适应中心相似度”的思想，通过学习映射函数，使得同一标签（类别）的图像在哈希空间中更加接近，不同标签的图像之间距离更远。为此，文章提出了标签亲和力（Label Affinity）概念，通过计算同一标签的图像之间的相似度，来引入标签亲和力的先验知识。同时，该方法还采用“自适应中心相似度”的学习策略，通过在哈希空间中更新中心点，不断优化映射函数。

最终，该方法在多个数据集上进行了实验，结果表明，该方法在图像检索的准确率和速度上都有较大的提升。

该论文讨论了基于预定义哈希中心的哈希方法与基于成对/三元组方法的哈希方法的区别，以及前者存在的问题。具体来说，预定义哈希中心的固定性导致其无法感知数据分布，同时受到预先确定的Hadamard矩阵的限制，无法考虑标签语义信息和对象规模大小，从而导致检索性能亚优和泛化能力弱。为了解决这些问题，该论文提出了一种名为LSCSH（Label-affinity Self-adaptive Central Similarity Hashing）的哈希方法，该方法可以自适应生成哈希中心，并通过考虑标签语义信息和对象规模大小获得更准确的哈希质心。

具体来说，LSCSH包含一个哈希码生成器模块和一个哈希中心适配器模块。在哈希码生成器模块中，利用Word2Vector技术获取标签词向量，以生成并更新自适应哈希中心。在哈希中心适配器模块中，引入标签亲和系数（LAC）的概念，考虑每个标签/对象的规模大小，计算每个图像的哈希质心。此外，还采用异步学习机制使每个哈希码及其对应的哈希质心动态适应。

论文在CIFAR-10、ImageNet、VOC2012、MS-COCO和NUS-WIDE等多个数据集上进行了实验，结果表明该方法在单标签和多标签图像检索中均具有最先进的性能，并通过GitHub开源了代码。该方法的关键词包括图像检索、标签语义信息、哈希中心、标签亲和系数和哈希质心。

I. 引言深度哈希方法极大地提高了检索准确性，因为深度特征能够准确表示数据之间的相关性。同时，哈希损失函数在这个学习过程中起着至关重要的作用，因为它引导网络学习保留相关性的深度特征。大多数哈希损失函数通过成对[1]–[4]或三元组相似性[5]，[6]来衡量数据之间的相对距离。然而，这些哈希方法存在两个严重的问题。(1) 它们为构建整个数据集上的成对/三元组样本带来额外的计算开销，导致大规模训练数据的准备困难。(2) 受当前小批量学习方式的限制，每个批次中相似样本和非相似样本的比例通常不平衡，导致模型无法基于这种小批量限制识别整体数据分布，从而达到次优性能。

为了克服这些缺陷，Yuan等人提出了一种用于图像和视频检索的中心相似度量化（Central Similarity Quantization，CSQ）方案，使用哈希中心损失函数而不是成对/三元组损失函数。它从Hadamard矩阵中获取提取的哈希中心，并根据数据分布在固定的哈希中心周围生成哈希码。具体而言，哈希中心是从Hadamard矩阵手动随机提取的相互正交行向量，并且因此哈希中心之间的平均汉明距离至少为K/2，其中K是哈希码的长度，每个中心对应一个数据类别（即一个标签）。这样，CSQ可以从全局视角推动相似数据靠近它们自己的哈希中心，而不同类别之间的距离足够大，因为初始化的哈希中心之间有固定的距离，这些距离对应于从Hadamard矩阵中抽样得到的类别标签。然而，固定的哈希中心不包含语义信息，与对象语义和数据分布无关。此外，在计算哈希质心时忽略了对象的尺度大小。特别是对于多标签图像[4]，如图1所示，CSQ将图像中出现的每个标签视为同等重要，然后使用相应哈希中心的平均值来计算哈希质心（即黑点），导致每个样本的哈希码偏离其对应的真实哈希质心（即灰点）。

1：使用我们的LSCSH在多标签图像上进行哈希质心计算的示意图。 (a) 多标签图像具有四个标签：公交车、汽车、自行车和人。注意，每个标签对应一个哈希中心。图像上方的小数表示与相应对象尺度相关的标签亲和系数（lac）。 (b) 空心圆点表示样本的连续哈希码。颜色（即红色、浅蓝色、蓝色和绿色）的圆点分别对应上述四个标签的哈希中心。灰色圆点和黑色圆点分别表示真实哈希质心（即基于我们提出的标签亲和系数加权求和的哈希中心）和平均哈希质心（即基于等权重求和的哈希中心）。我们的目标是将多标签样本的哈希码推向与由灰色圆点表示的真实哈希质心靠近，如实心灰色箭头所示。

为了解决这些问题，我们期望（1）哈希中心应该包含对象之间的语义关系，（2）哈希质心计算应考虑图像中不同对象的尺度大小。因此，在本文中，我们提出了基于标签相关性的自适应中心相似度哈希（Label-affinity Self-adaptive Central Similarity Hashing，LSCSH）方法，用于单标签和多标签图像检索。LSCSH由哈希码生成器模块和哈希中心适配器模块组成，前者采用卷积神经网络（CNN）为每个图像生成哈希码，后者根据标签语义信息构建哈希中心，即每个哈希中心对应一个类别标签。首先，受到跨模态哈希方法的启发，我们利用Word2Vector技术获取标签词向量（即每个类别标签的词向量表示），通过生成和更新适应标签词向量和生成的哈希码分布的哈希中心。其次，如图1所示，我们提出了标签亲和系数（label-affinity coefficient，lac），用于表示多标签图像中不同标签对应对象的显著性，考虑到每个对象（对应一个标签）的不等尺度，计算每个图像的更准确的哈希质心。最后但同样重要的是，我们设计了一种异步学习机制，使得每个哈希码及其对应的哈希质心能够动态地相互适应。因此，在完成模型训练后，我们将得到每个样本的高质量语义哈希码。据我们所知，这是首次利用标签语义信息生成自适应哈希中心。我们在包括CIFAR-10、ImageNet、VOC2012、MS-COCO和NUS-WIDE在内的5个图像数据集上进行了大量实验证明，LSCSH在单标签和多标签图像数据集上均能达到最先进的图像检索性能。

二、相关工作

深度哈希方法可以根据是否使用图像注释分为有监督[4]，[10]，[11]和无监督[12]–[14]方法。此外，我们的工作充分利用标签语义[9]信息生成哈希中心，因此我们主要讨论有监督的哈希方法。现有的有监督深度哈希方法[4]，[15]–[18]通常采用卷积神经网络(CNN)来捕获图像的特征，然后设计一个哈希层将特征映射到紧凑的二进制码，利用有监督信息生成具有区分性和高质量的哈希码。它们主要分为两类，我们将在下面进行讨论。

A. 两两/三元组方法

这些方法使用两两/三元组相似性损失函数。通过最小化（最大化）相似（不相似）数据对之间的汉明距离，监督离散哈希（SDH）[19]生成离散的二进制哈希码，它为线性分类提供了一个新的哈希框架，并提出了一种解决NP困难二进制优化问题的新方法。带核的监督哈希（KSH）[20]生成非线性且有区分性的哈希码。为了解决计算开销大和模型训练过程复杂的问题，KSH提出了一种基于核的哈希模型，利用样本的相似/不相似信息构建低训练成本模型以获取高质量的哈希码。针对多标签图像场景，深度柯西哈希（DCH）[21]采用基于柯西分布的两两交叉熵损失，显著地将相似数据对的哈希码限制在较短的汉明距离范围内。标签关注哈希（LAH）[15]结合了卷积神经网络（CNN）和图卷积网络（GCN）[22]，首先分别从多标签图像中提取特征，并将标签共现信息聚合到标签词向量中，然后建立用于哈希学习的两两相似性保持损失函数。DCH和LAH本质上都利用基于两两相似性损失的哈希函数。深度共映射哈希（DCILH）[23]提取了图像和对应标签之间的共享汉明空间，并利用多个标签之间的依赖关系。卷积神经网络哈希（CNNH）[18]首先从两两相似性矩阵分解中学习近似哈希码，然后同时学习图像特征和哈希函数。基于三元组的哈希方法，如深度神经网络哈希（DNNH）[24]，使用三元组排序损失来学习相似性。DNNH不使用手工设计的视觉特征，而是利用深度神经网络来提取每个图像的特征，并提出了一种可以表征一个图像与第二个图像比与第三个图像更相似的三元组排序损失。实例感知哈希（IAH）[25]利用区域建议方法从多标签图像中获取特定对象，并构建基于三元组相似性的损失函数和Softmax损失函数，优化整个深度哈希网络并生成紧凑的哈希码。改进的深度哈希网络（IDHN）[4]提出了对归一化语义标签的两两相似性的软定义，并结合交叉熵损失和均方误差（MSE）损失生成鲁棒的哈希码。基于Partial-softmax Loss的深度哈希（PSLDH）[26]训练一个类别哈希网络以生成类别码，通过一种新颖的Partial-SoftMax损失帮助产生保留语义信息的相似性哈希码。需要注意的是，视觉转换器哈希（VTS）[27]指出大多数图像哈希方法在采用视觉转换器主干网络提取图像特征时可以实现更高的检索性能。然而，这些基于两两/三元组相似性的方法不可避免地面临着由于枚举所有样本对/三元组而引起的巨大计算开销。在大规模的视觉场景中，建立如此庞大数量的样本对/三元组是不可行的。

B. 量化方法

另一种方法是基于量化损失函数[16]，[28]–[30]，其目标是减少在大规模图像数据集中枚举所有成对/三元组对所引起的巨大计算开销。这个问题已经在许多代表性的研究中得到有效探索，如迭代量化（ITQ）[31]、深度哈希（DH）[32]和带二进制深度神经网络的监督哈希（SH-BDHH）[29]等。ITQ将特征空间划分为相互独立的子空间，并对其进行独立的量化。DH结合了深度学习方法，并设计了自己的量化损失函数来生成二进制码。SH-BDNN利用深度神经网络，并采用汉明距离作为度量来构建基于量化损失的目标函数。最近，一种基于中心相似性的方法称为CSQ[7]产生了一个新的研究方向，并吸引了更多的关注。它首先利用Hadamard矩阵获得哈希中心，然后将数据样本推动到正交哈希中心附近。

如上所述，对于大规模数据集而言，枚举所有的数据对/三元组是不可行的，因为计算复杂度太高。虽然CSQ摆脱了对数据对/三元组的依赖，但它在手动方式下使用Hadamard矩阵初始化静态哈希中心，没有考虑每个哈希中心的语义信息。与现有的工作不同，我们提出的LSCSH将标签语义信息融入到其哈希中心中，并采用一种新的异步学习方式来优化哈希码生成器和哈希中心适配器的参数，这极大地有助于生成高质量的哈希码，并提高单标签和多标签图像数据集上的视觉检索性能。

III. 提出的方法

在本节中，我们首先介绍LSCSH的整体框架，然后详细介绍这些模块的工作流程和LSCSH的学习策略。

A. 整体框架

如图2所示，我们的LSCSH的整体框架包括一个哈希码生成器模块和一个哈希中心适配器模块。哈希码生成器模块使用CNN骨干网络提取输入图像的视觉特征，并生成相应的哈希码。哈希中心适配器模块旨在根据从Word2Vector技术中提取的标签语义信息自适应地构建语义哈希中心。在获得初始化的哈希码和哈希中心之后，LSCSH将输入图像中每个标签/对象出现的尺度大小视为可学习参数，计算该图像的哈希质心（即哈希中心的加权和）。我们设计了一种异步学习机制，以有效地更新网络参数，使每个哈希码及其对应的哈希质心能够动态地相互适应。最后，在完成训练过程后，模型将输出每个样本的最终哈希码。我们以下详细解释每个模块的细节。

B. 哈希码生成器

哈希码生成器模块首先提取视觉图像特征，然后为每个样本生成哈希码。形式上，我们假设训练集中有N个样本{xi} N i=1和C个类别。令L(xi) = [yi1, ..., yiC]表示样本xi的相应真实标签，其中yij ∈ {0, 1}是离散的二进制指示符，对于j = 1, ..., C，即yij = 1表示样本xi具有第j个类别标签，否则yij = 0。该模块将把输入空间中的每个样本映射到哈明空间：xi 7→ hi ∈ {−1, 1} K。在我们的架构中，任何基于CNN的模型都可以完成图像的特征提取。为了与现有工作[7]进行公正的比较，我们在实验中使用ResNet-50[33]和AlexNet[34]提取图像级特征。基于此，对于分辨率为224×224的图像xi，我们可以分别获得一个7×7×2048和一个4096维的特征向量。对于ResNet-50，我们使用全局平均池化来生成图像级特征。完成特征提取后，由三个全连接（fc）层和非线性激活函数组成的哈希层将这些提取的图像级特征映射到一个实值向量： zi = tanh(H(FCNN(xi; θ))), (1) 其中θ表示哈希码生成器模块的参数，FCNN表示特征提取网络，H表示哈希层，tanh表示激活函数，zi表示K维连续码，位于区间（-1, 1），即zi ∈ (-1, 1)K。需要注意的是，在训练阶段，我们将使用zi与哈希中心适配器模块一起计算损失。而在推理阶段，我们将移除哈希中心适配器模块，仅保留哈希码生成器模块，并通过符号函数进行二值化操作以生成每个样本xi的哈希码hi = sign(zi)。在下一部分中，我们将介绍如何自适应地构建语义哈希中心以匹配这些哈希码。

2：左侧部分展示了LSCSH的整体框架，包括一个哈希码生成器模块和一个哈希中心适配器模块。黑色箭头表示正向传播。LH和LA分别表示上述两个模块的损失函数，它们通过异步学习机制更新网络参数，分别用紫色箭头和蓝色箭头表示。右侧显示了哈希质心计算的细节。LSCSH的目标是将连续码（例如z1）推向其相应的哈希质心（例如p1），并尽可能地保持这个哈希码与所有其他不相关的哈希中心（即r3，...，rC-1，rC）之间的距离较大。

C. 哈希中心适配器众所周知，词语描述自然地包含了对象之间的语义关系。直观上，人们普遍认为标签"狗"与标签"猫"比与标签"公交车"更相似。因此，在Hamming空间中，标签"猫"的哈希质心应该与标签"狗"的哈希质心更接近，而不是与标签"公交车"的哈希质心接近。通过保持不同标签之间的相对距离，我们的自适应哈希中心能够很好地融入标签的语义信息。此外，我们的方案能够更好地适应给定数据集的分布，从而提高模型的泛化能力。基于这些考虑，与以前的工作不同，前者构建固定的哈希中心而不考虑语义相关性，我们在这部分根据标签词向量自适应生成和调整哈希中心。具体地说，我们首先利用BERT[35]模型将每个对象（即每个标签的词描述）转换为词向量，得到一个标签词向量矩阵V = {vi}i=1∈RC×D ∈RC×D，其中C是第III-B节中提到的类别数，D = 768是BERT中每个词向量的默认维度。值得注意的是，我们还尝试了其他Word2Vector方法（如GoogleNews [36]、GloVe [37]和FastText [38]），发现BERT能带来更好的结果。接下来，我们设计了2个全连接层来生成和调整哈希中心。通过这种方式，我们可以将不同对象之间的语义关系嵌入到哈希中心中。映射函数g : vi→ri表示从标签词向量到连续哈希中心的哈希中心适配器函数，这个过程可以表示为： ri = g(vi; ξ), (2) 其中ξ表示g的参数，ri表示第i个哈希中心。这样，我们将基于标签词向量和该模块的随机初始化参数ξ获得C个连续的哈希中心E = {rj}j=1∈RC×K。在获得哈希码和哈希中心之后，我们的目标是使每个哈希中心和每个哈希码动态地适应彼此，生成高质量的哈希码。正如我们在图2中看到的那样，如果对应的标签/对象没有出现在给定的样本中，大多数哈希中心与该样本无关。我们的目标是确保样本的每个哈希码都靠近相关的哈希中心，并远离无关的哈希中心。为了实现这个目标，我们提议为每个图像计算哈希质心（即相关哈希中心的加权和），考虑到该图像中出现的每个标签/对象的比例大小。我们将在第III-D节中描述计算过程。

D. 哈希质心计算

以往的研究在哈希质心计算过程中采用固定的哈希中心，并忽略了不同对象的大小差异。在这部分中，基于构建的哈希中心，我们提出了标签相关系数（label-affinity coefficient，简称lac）来计算每个图像的真实哈希质心。受到LTHNet [39]的启发，如图2所示，lac作为一个表格被存储在内存中，称为Memory bank，它记录了所有样本的{wi}N i=1，其中wi = {wij}C j=1，wij表示在样本xi中出现的第j个标签/对象的权重，满足PC j=1 wij = 1。因此，样本xi的哈希质心pi可以计算如下： pi = ∑wij rj ，(3) 其中rj表示第j个哈希中心。下面我们将进一步解释如何获得wij。

如III-B节所述，L(xi) = [yi1, ..., yiC]表示样本xi的相应的真实标签，其中yij ∈ {0, 1}是一个离散的二元指示符，对于j = 1, ..., C，即yij = 1表示样本xi具有第j个类别标签，否则yij = 0。CSQ [7]忽略了对象的尺度大小，将图像中的每个对象视为同等重要。以图2右侧为例，假设图像x1包含两个标签，这些标签对应于其标签向量的索引0, 1（即[1, 1, 0, 0, . . .]）。也就是说，y11 = y12 = 1。CSQ将直接设置和固定w11 = w12 = 1/2，而w1中所有其他剩余元素的值将被设为0。因此，哈希质心p1只受到哈希中心r1和r2的影响。然而，同一图像中的不同对象将占据不同的尺度，这意味着不同的哈希中心在哈希质心上具有不同的权重。为了获得样本xi的准确哈希质心，我们将wi视为学习参数，并参考欧式投影[40]来更新wi，在模型迭代过程中进行更新。

具体而言，对于每个样本xi，我们将|L(xi)|表示为L(xi)中非零元素的数量。基于此，wi中每个非零元素的位置将初始化为1/|L(xi)|。由于在wi中的加权求和等于1（即PC j=1 wij = 1），我们结合欧式投影[40]和梯度下降来有效地学习和更新wi，这可以反映xi中对象的尺度大小，并带来准确的哈希质心pi，从而提高哈希码的质量。接下来，我们将在III-E节和III-F节介绍如何通过不断限制每个哈希码zi与其对应的哈希质心pi之间的距离来训练我们的模型。

E. LSCSH的损失函数在获得每个样本xi的初始化哈希码zi和相应的哈希质心pi之后，我们开始通过不断限制zi和pi之间的距离来训练我们的LSCSH。为了实现这个目标，我们设计了一种加权Softmax损失函数，以实现同类聚合和异类分散的目标，具体如下： Lws = − 1 N X N i=1 log SIM P OS(i) SIM P OS(i) + SIM NEG(i) ， SIM P OS(i) =exp( sim(zi , pi) τ )， SIM NEG(i) = X r (n) j ∈Sneg exp( sim(zi , r (n) j ) τ )， (4) 其中j ∈ {1, 2, · · · , C}，sim(·, ·)表示相似性度量（例如，余弦距离或欧氏距离，在这里我们采用余弦距离），τ是适应超球面空间的尺度参数，以满足特征表示的要求。Sneg表示哈希中心的一个子集，其中每个元素对应于第i个标签向量中的0元素，即这些哈希中心对哈希质心计算没有实质性影响。r (n) (·)带有上标(n)表示来自Sneg的哈希中心。通过这种方式，此损失函数不仅继承了传统哈希损失的优点，可以使每个哈希码靠近其相应的哈希质心，保持类内哈希码高度聚合，还考虑了类间有区分性的特征，增加了来自不同类别的哈希码聚类之间的边界。需要注意的是，这个加权Softmax损失将参与整个学习过程，包括哈希码优化、哈希中心优化和哈希质心优化。

哈希码优化：哈希码生成器模块的目标是根据当前的哈希质心生成和更新每个哈希码。加权Softmax损失函数（见公式（4））可以解释为给定哈希质心的哈希码的类内和类间损失，其目的是确保如果样本属于相同（不同）类别，则每两个哈希码彼此变得相似（不相似）。此外，由于在图2的哈希层中输出的是实值向量，我们需要使用量化损失来将这些浮点数近似为1或-1，如下所示： Lq = 1/N * Σ(||hi - zi||^2)，(5) 其中hi和zi分别表示与样本xi对应的二进制和实值哈希码。可以看到，哈希质心的计算是由图像中出现的所有标签/对象决定的。为了防止某个标签权重在更新过程中主导损失函数，并增加模型的稳健性，我们利用最大熵正则化来优化这些标签权重，如下所示： R(w) = 1/N * Σ(Σ(wij * log(wij)))，(6) 因此，哈希码生成器模块中的整个哈希损失由上述三个损失函数组成，我们将这个哈希损失表示为： LH = Lws + µLq + λR，(7) 其中µ和λ是两个加权因子。在实验中，我们通过网格搜索将µ设置为0.05，λ设置为0.001。我们直接使用LH通过梯度下降来更新参数θ（即哈希码优化），见第III-F节。
哈希中心优化：哈希中心适配器模块旨在基于从BERT[35]模型中提取的标签词向量生成语义哈希中心。正如我们所看到的，这种Word2Vector方法不仅将标签词映射到向量中，还保持不同标签词向量之间的语义相似性，有效地将语义关系整合到哈希中心中。这种方式可以极大地保持哈希中心之间的相对距离与相应的标签语义相关性一致（例如，标签“Bus”和“Car”之间的距离小于标签“Person”和“Bus”之间的距离）。为了使哈希中心的分布tij接近于标签词向量的分布sij，我们参考了常用的Kullback-Leibler（KL）散度，在表示学习中已被证明是有效的，并设计了一个标签中心损失函数来实现这个近似： Llabel−center = X C i=1 X C j=1 sij log sij tij ，其中vi和ri分别表示第i个标签词向量和哈希中心。另外，为了表明用于大大区分生成的哈希码的不同哈希中心之间的距离，我们制定了类间损失函数： Linter = − X C i=1 X C j=1,j̸=i ||ri − rj ||^2 ，其中类间损失旨在增加ri和rj之间的类间可分性，引导哈希中心适配器网络使任意两个哈希中心之间的距离尽可能大。基于上述设计，给定当前的哈希码集合，我们将优化哈希中心适配器模块的目标分为以下三个方面：（i）Lws旨在减小每个哈希码与其对应的哈希质心之间的距离，（ii）Llabel−center旨在保持哈希中心的分布与标签词向量之间的相似性，（iii）Linter旨在尽可能增加不同哈希中心之间的距离。因此，我们形式化适配器损失函数如下： LA = Lws + α1Llabel−center + α2Linter，其中α1和α2是两个权重因子，用于权衡损失项。在我们的实验中，通过网格搜索，我们设置α1 = 0.5和α2 = 10.0。我们直接使用LA通过梯度下降更新参数ξ（即哈希中心优化），详见第III-F节。
哈希质心优化：正如前面提到的，每个图像的哈希质心是基于哈希中心和lac计算的，其中前者由哈希中心适配器生成，后者将通过欧几里德投影[40]和梯度下降技术获得。给定哈希码和哈希中心，lac将通过目标函数LH（见公式（7））关于wi的梯度向量进行更新，可以表示为： ∇wij = ∂LH ∂wt−1 ij ，wˆ t ij = w t−1 ij − η∇wij，其中w t ij表示第t次迭代中wij的值。如我们所知，wi中所有元素的和等于1，在每次迭代之后我们需要保持这一原则。由于欧几里德投影[40]适用于此优化，我们参考它将wˆ t i = {wˆ t ij} C j=1 投影到w t i = {w t ij} C j=1，并输出wij的最优值，如下所示： w t i = min wt i 1 2 ∥ w t i − wˆ t i ∥ 2 ， X C j=1 wij = 1, wij ≥ 0。这样，w t i反映了第t次迭代中xi的标签权重，我们将w t i和哈希中心结合起来计算该次迭代中的哈希质心pi。接下来，我们将通过我们的同步学习机制在第III-F节介绍LSCSH的训练工作流程

F. 异步学习机制在构建了上述损失函数之后，我们开始训练网络并更新网络参数。为了优化LSCSH，我们设计了一种异步学习机制。主要有三个学习参数，即θ、ξ和lac，其中θ和ξ可以通过反向传播进行优化（如图2中的紫色和蓝色箭头所示），而lac则保存在一个内存库中[42]。我们以异步学习方式更新哈希码生成器模块和哈希中心适配器模块。简而言之，我们首先利用哈希中心适配器的当前参数ξ、哈希码生成器的参数θ以及lac生成当前的哈希码，并根据一批输入数据计算哈希损失LH。然后，依次更新lac、LH和θ。对于每次迭代中的每一批数据，以上过程将被执行，直到所有数据都被处理完毕。

接下来，在每次迭代后获得的θ和lac基础上，我们开始计算适配器损失LA，并更新所有的哈希码和参数ξ。这样，损失函数（即LH和LA），哈希码和哈希中心将通过前向传播进行计算或更新，同时，参数（即θ、ξ和lac）将通过反向传播和梯度下降进行更新。上述两个分支将继续交替进行，直到网络收敛或达到预定义的最大迭代次数。

具体来说，我们在算法1中总结了网络训练过程的伪代码，您可以查看我们的开源代码以获取更多细节。

V. 结论和未来工作本文提出了基于标签语义相关性学习哈希中心的LSCSH，并利用lac指示每个图像中不同对象的尺度。首先，我们使用常用的骨干网络提取数据样本的特征，并设计另一个多层感知器作为哈希中心生成器。其次，哈希中心生成器考虑了标签嵌入的关系，即使保持哈希中心间的距离足够大，也要保证它们的相对距离符合标签词的语义信息。第三，我们设计的加权Softmax损失可以将每个哈希码推向其相应的哈希质心，并远离不适当的哈希中心。最后，异步学习机制有效地优化了我们的模型。在5个图像数据集上进行的大量实验结果表明，LSCSH可以比目前最先进的图像哈希方法实现更好的图像检索性能。此外，我们还深入分析了我们提出的LSCSH在不同模块组合或加权因素下的性能。

未来，我们计划从以下四个方面改进我们的方案。首先，我们尝试使用其他技术（例如，图神经网络）更好地捕捉数据样本或注释之间的关系。第二，lac实际上是内存中的一个稀疏表，因此我们希望压缩这个表以节省大规模图像数据集的内存空间。第三，我们将进一步探索通过采用类似CLIP的多模态骨干网络来减小图像特征和标签嵌入之间的差距，以完成特征提取和哈希中心生成，从而产生高质量的哈希码。第四，我们可以调整LSCSH的结构，将其应用于更复杂的任务，如场景图像检索。

输入: N: 样本数量; B: 批量大小; θ 和 ξ: 两个网络分支的参数; w: 标签亲和度系数（lac）; η∗: 学习率; optimizer∗: 优化器。初始化: 随机初始化θ和ξ; 将wi的非零元素初始化为 1 / |L(xi)|。 1 循环 2 r = g(v; ξ); 3 对于 j=1 到 N/B 4 zj ← f(xj ; θ); 5 使用(w, r, zj)计算LH； 6 wb ← w − η1 * ∂LH / ∂w ; 7 w ← 进行欧几里得投影(wb)； 8 使用(w, r, zj)计算LH； 9 δθ ← ∂θLH; 10 θ ← optimizerθ(θ, δθ, η2); 11 z ← f(x; θ); 12 使用(w, r, z)计算LA； 13 δξ ← ∂ξLA; 14 ξ ← optimizerξ(ξ, δξ, η3); 15 直到网络收敛或达到最大迭代次数为止；输出: fθ, gξ, w.

h3214463785

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
《Label-affinity Self-adaptive Central Similarity Hashing for Image Retrieval》

这篇论文介绍了一种名为Label-affinity Self-adaptive Central Similarity Hashing (LSCSH)的图像检索方法。首先，论文提到了使用哈希编码来实现高效的图像检索。哈希编码将图像映射为二进制码，使得相似的图像具有相似的哈希码。接下来，论文提出了LSCSH方法，该方法利用标签关联性和自适应中心相似性来学习哈希编码。具体来说，LSCSH方法包括以下几个关键步骤：特征提取：使用常见的骨干网络提取图像的特征。哈希中心生成：设计了一个多层感
复制链接

扫一扫