【Multi-label enhancement based self-supervised deep cross-modal hashing】

多标签增强的自监督深度交叉模态哈希

Neurocomputing -2区 2022年 西南大学

摘要:深度跨模态哈希算法将深度学习和哈希算法集成到跨模态检索中,比传统的跨模态检索方法具有更好的性能。然而,以前的深度跨模态哈希方法大多只利用单个类别标签来计算模态间的语义亲和力,而忽略了多个类别标签的存在,多个标签可以更准确地捕获语义亲和力。此外,几乎所有地跨模态哈希方法都直接使用所有模态来学习哈希函数,但忽略了所有模态中原始实例可能包含噪声的事实。为了避免上述缺陷,本文提出了一种新的基于多标签增强的自监督深度交叉模态哈希方法MESDCH。MESDCH首先提出了一个多标签语义相似度保持模块,该模块利用RELU变换来统一学习的哈希表示的相似性和原始实例对应的多标签语义相似度,并定义了一个正约束kl散度损失函数来保持它们的相似性。然后将该模块集成到一个自监督语义生成模块中,以进一步提到深度跨模态哈希的性能。在四个著名数据集上进行的大量评估实验表明,所提出的方法在跨模态哈希检索应用中达到了最先进的性能,并优于几种优秀的基线方法。代码公开https://github.com/SWU-CS-MediaLab/MESDCH.

近年来,网站上的图像、文本、音频和视频等多媒体数据激增。由于不同的数据模态可能描述相同的事件或主题,我们可以利用这些多模态数据之间的潜在语义相关性来实现大规模跨模态数据检索。因此,跨模态检索引起了越来越多的关注。跨模态检索是通过使用对另一模态的查询来从一个模态中搜索语义相关的实例。这些不同的模态数据具有不同的特征表示和分布。因此,如何高效地统一这些海量地、异构地模态数据,进一步缩小他们之间地语义鸿沟仍然是一个巨大的挑战。

跨模态检索的目标是学习一个同构的潜在语义空间,在这个空间中,来自不同模态的数据的原始异构特征表示可以通过潜在嵌入来统一。这是基于这样一个假设,即具有语义相关属性的不同模态可以映射并分组到一个公共的潜在空间中。现有的跨模态检索方法可以分为两大类:实值表示学习方法和二进制表示学习方法。实值表示(如子空间学习、主题模型和深度模型)通常通过欧几里得距离测量,以确保语义相关的数据彼此接近。然而,实值表示空间中的相似性度量存在搜索响应低、计算复杂度高等问题。因此,使用了二进制编码,它既具有较低的数据存储要求,又具有高效的距离度量(异或操作)。二进制表示学习方法,也称为跨模态哈希CMH方法,可以有效地将多模态数据的高维实值表示投影到同构的汉明空间中,赋予相似的跨模态数据表示类似的哈希码。

一般来说,现有的跨模态散列方法可以进一步分为无监督方法和有监督方法。无监督跨模态哈希方法,如媒体间散列(IMH)[25]、协同矩阵分解散列(CMFH)[26]、潜在语义稀疏散列(LSSH)[27]和无监督生成对抗性跨模态散列(UGACH)[28],通过探索多模态数据表示的相似性之间的潜在分布和结构来学习哈希投影函数,而无需使用任何进一步的监督信息。 有监督的跨模态散列方法通过将成对实例映射成成对二进制码来学习散列函数,并在有监督信息(如语义标签)的指导下保持成对实例的语义相关性。有代表性的监督CMH方法,如语义相关性最大化(SCM)[29]、语义保持哈希(SePH)[30]、字典学习跨模态哈希(DLCMH)[31]和半松弛监督哈希(SRSH)[32],通过利用语义标签,可以有效地提取跨模态数据的语义相关性,与无监督CMH方法相比,该方法具有更高的性能。然而,这些方法基于浅层结构,不能描述不同模态之间复杂的非线性相关性。此外,在这些方法中,手工制作的特征提取和哈希函数学习是独立执行的,这两种方法之间可能不具有最佳兼容性,并且可能会导致次优性能。

最近,深卷积神经网络(CNN)[33–36]在各种计算机视觉应用中取得了重大进展[37–46],并被用于跨模式哈希检索。基于深度神经网络的跨模式散列方法,如深度跨模式散列(DCMH)[47]、成对关系引导的深度散列(PRDH)[48]、相关散列网络(CHN)[49]、集体深度量化(CDQ)[50]、自监督对抗性散列(SSAH)[51]、跨模式汉明散列(CMHH)[52],快速离散交叉模式散列(FDCH)[53],深度多尺度融合散列(DMFH)[54]。以及基于三元组的深度哈希(TDH)[55],将哈希表示和哈希函数的学习集成到端到端可训练的体系结构中。同时,基于深度模型的CMH方法可以有效地捕获非线性异质交叉模态相关性,并获得比使用浅层结构的方法更好的性能。

然而,大多数现有的深层CMH方法只是利用单个类标签来定义原始成对实例的语义亲和力,同时,最小化学习的哈希表示的语义亲和力和相似性之间的差异,以保持汉明空间中成对实例的语义相关性。然而,这种简单的语义亲和力定义不能有效地保持语义相关性,并可能导致较差的检索性能。 实际上,在跨模式检索基准数据集以及实际应用中,这些来自不同模式的数据通常被标记为多个类别,例如多个标签。这使我们能够细化语义亲和力的定义,并基于多标签信息,从而为模态间和模态内成对实例利用更准确的语义相关性(如图1所示)。然而,如何有效地最小化多标签语义亲和力与所学习的哈希表示的相应相似性之间的差距仍然是一个问题。最小化这一差距的常见解决方案是优化基于MSE(均方误差)的损失函数[56]。然而,MSE的度量是基于欧几里德距离的,难以优化。此外,基于MSE的损失函数对异常实例对不具有鲁棒性[49]。为了解决这个问题,一个直接的解决方案是,通过使用基于经典Kullback–Leibler散度[57]的损失函数(KL损失)和随机梯度下降优化[58],约束学习的哈希表示的相似性,以适应原始成对实例(P)对应的多标签语义亲和力。这导致了另外两个问题。首先,S和P的范围并不总是相同的,已经证明,用简单的线性变换来统一S和P的范围是无效的。其次,如果S的大多数初始值大于P的相应值,基于Kullback–Leibler散度的损失函数可能会产生负的损失值,这可能会在优化过程中不利于拟合目标(如图2所示)。

此外,大多数现有的深度CMH方法只是使用数据的所有模态来学习哈希函数,而忽略了所有数据模态中的原始实例可能包含噪声的事实。这些噪声可能会降低所学习的哈希表示和哈希函数的性能和鲁棒性。同时,实例的指定标签对每个模态中的原始特征进行了细化,包含了大量的语义信息,通常很少显示噪声。因此,通常使用基于多标签注释的自监督语义网络来提高深度CMH方法的性能(如图3所示) 然而,它们基于单个标签信息定义实例的语义相似度矩阵,不能准确地捕捉原始成对实例的语义相似度。

考虑到上面的问题,本文提出了一种新的、高效的基于多标签增强的自监督深度交叉模态哈希方法,以提高所学习的哈希表示和哈希函数的鲁棒性。如图4所示,我们的MESDCH中引入了两个新模块。第一个是多标签语义亲和力保持模块。本模块主要由三部分组成:第一部分是多标签语义亲和力的新定义,目的是在多标签信息的监督下准确地利用原始成对实例的语义亲和力。第二部分是一种新的空间变换,使用relu函数来有效地统一基于KL散度的损失函数中学习的哈希表示的相似度范围和原始成对实例的相应多标签语义亲和力。第三部分是提出的正约束KL散度损失函数,它主要防止基于KL散度的损失函数具有负损失值。第二个是自监督语义生成模块。该模块有效地使用多标签注释作为模式来监督哈希表示和哈希函数学习,目的是减轻所有模态中噪声数据的影响。提出的MESDCH将多标签语义亲和力保持模块和自监督语义生成模块融合到基于三个深度神经网络的深度跨模态哈希算法中,即多标签模态的LabelNet、图像模态的ImgNet和文本模态的TxtNet。LabelNet充当指导TxtNet和ImgNet训练的主管角色,通过最小化多标签语义亲和矩阵和相应的哈希表示亲和矩阵之间的差异,保留了模式内和模式间的多标签语义亲和性。通过在学习的哈希表示上使用符号函数,可以获得更好的哈希二进制码。

我们工作的主要贡献可以总结如下。

    1 提出了一种新的多标签语义亲和力保持模块。在该模块中,定义了一个多标签语义亲和矩阵,以精确计算原始成对实例的语义相关性。提出了一种ReLU变换,将学习到的哈希表示的相似度范围转换为接近原始成对实例的语义亲和力范围。定义了一个基于正约束Kullback–Leibler散度的损失函数,以确保在哈希函数学习过程中损失函数的值为非负。 

    2 为有效地减少散列函数学习过程中原始训练实例中噪声数据的影响,提出了一种基于多标签增强的自监督深度跨模态散列方法,该方法结合了多标签语义亲和力保持模块和自监督算法。语义生成模块是一个端到端可训练的体系结构,可以进一步增强所学习的哈希表示和哈希函数的鲁棒性。

    3 在四个跨模态检索基准数据集上进行的大量实验表明,与没有提出的模块的CMH方法相比,MESDCH方法显著提高了性能。此外,实验结果还表明,我们提出的MESDCH方法优于其他先进的CMH方法。

本文的其余部分组织如下。第二节简要回顾跨模态哈希检索的相关工作。第3节阐述了我们提出的基于多标签增强的自监督深度交叉模式哈希方法。第4节介绍了在我们的框架中使用的详细优化。第5节给出了实验结果和相应的分析。第6节总结了我们的工作。

3 method

在这一部分中,我们首先介绍了形式化表示法、问题定义以及所提出的基于多标签增强的自监督深度交叉模态哈希方法(MESDCH)的细节。在不丧失一般性的情况下,在我们的方法中,我们假设每个实例有两种模态,即图像模态和文本模态。然而,我们提出的MESDCH可以很容易地扩展到各种其他多模式(如音频、视频和图形)。此外,在MESDCH中,多标签信息被用作多标签模态,以自监督的方式指导文本图像跨模态哈希的训练。图4详细描述了我们提出的MESDCH框架。

3.1. 符号与问题表述

假设训练数据包括n个实例,即O={V,T,L};V ∈Rn×dp ,T ∈Rn×dt ,L ∈Rn×dl 分别是所有训练实例的原始图像特征、文本特征和标签,以及dv;dt分别是图像特征和文本特征的对应原始维度,dl是类类别的总数。Vi ∈Rdp ,Ti ∈Rdt ,Li ∈Rdl N分别代表原始图像特征、原始文本特征和第i个实例Oi的标签向量。如果实例i属于第j个类,则Li的第j个分量为1,否则等于0。P表示多标签语义亲和矩阵,其中项表示两个模态间实例的多标签语义亲和矩阵;PIT表示两个模态内实例的多标签语义亲和矩阵。更多细节将在以下小节中给出。

给定训练信息O和P,MESDCH的目标是学习三种特定模式的三个哈希函数。即,对于给定的图像模态实例vi、文本模态实例Ti和多标签模态实例Li;f(.)是映射这些原始图像特征vi、文本特征Ti和L标签添加到其相应的哈希表示中。 这里是Wv;Wt和Wl是要学习的网络参数,k是二进制代码的长度。这三个散列函数应该将不同的模态实例投影到相应的散列码中,并保持语义相似性。通用的跨模态散列框架包括散列表示学习和散列函数学习,我们使用

k分别表示从图像模态、文本模态和多标签模态中学习到的所有实例的哈希表示。随后,使用所有训练实例的散列表示,相应的散列码矩阵B可通过以下符号sign(.)获得k函数,Bi∈{-1,+1}k是实例Oi对应的哈希码。 

3.2. 自监督语义生成模块

根据我们的观察,跨模式检索和社会应用领域的许多基准数据集都包含多标签数据。例如,跨模式基准数据集IAPR TC12包含一个图像VI(图1(a))和一个文本Tj(图1(d)),图像VI用标签瓶子、建筑物、布料、树标注,文本Tj用标签建筑物、体育场、树标注。这些实例至少有一个通用标签,例如building。大多数现有的跨模态方法可能会为vi和Tj的语义亲和力指定最大值(例如,1)。尽管如此,V i和Tj的确切语义是非常不同的,因为前者是阿玛斯广场的照片,后者是科恰班巴的鸟瞰图。事实上,如果我们使用多标签语义信息来监督哈希表示的学习,则在学习过程中可以有效地保持上述图像-文本对之间的语义亲和力。在这种情况下,亲和力值等于[0,1]范围内的某个实值。此外,所有数据模式中的原始实例可能包含噪声,这可能会降低学习到的哈希表示和哈希函数的性能,而实例的指定标签包括对每个模式中的原始特征的细化,并包含丰富的语义信息,通常几乎没有噪声。

为此,提出了一种用于跨模态哈希检索的自监督语义生成策略(SSSG)。具体的,SSSG将多标签信息视为一个单独的模态,并构建一个深度神经网络(称为LabelNet),利用深度神经网络将多标签语义信息投影到哈希二进制代码中。在散列表示学习和散列码生成过程中,LabelNet起到了监督作用,以保持不同模式之间的语义亲和力,并减少所有数据模式中原始训练实例中噪声数据的影响,从而指导不同模式的最佳散列投影函数的学习(图3(b))。

图3。该图展示了两个框架:(a)没有自监督策略的深层CMH框架,(b)有自监督策略的深层CMH框架。Vi;Tj和La分别是图像实例、文本实例和标签(多标签)。ImgNet、TxtNet和LabelNet是分别建立在图像模态、文本模态和标签(多标签)上的三个深度神经网络。在(a)中,如果Vi或Tj包含噪声数据,那么它可能误导哈希映射网络(ImgNet和TxtNet)的优化。相反,在(b)中,如果V i或Tj包含噪声数据,那么自监督网络(LabelNet)可以防止ImgNet和TxtNet的学习受到噪声数据的影响。

3.3. 多标签语义亲和力保持模块

在散列函数学习过程中,大多数跨模态散列方法都是使用单个标签来确定原始样本的语义相似度矩阵,但它不能准确地捕捉原始成对实例的语义相似度。为了在跨模态散列检索中利用多标签语义信息,特别是为了计算原始样本的语义相似度矩阵,本文提出了一种用于跨模态散列方法的多标签语义相似度保持模块

首先,利用余弦相似度[63]计算跨模态的多标签语义亲和矩阵,公式化如下:

其中v表示图像模态,t表示文本模态,Lvi等于图像vi的多标签,Lt j等于文本Tj的多标签。Pvt-ij是图像vi和文本Tj之间的多标签语义亲和力。||.||表示L2范数,(.)T表示向量(或矩阵)的转置,x.y表示x和y的内积,向量Lvi ; Ltj 很明显是标准化的,值Pvtij是区间[0,1]的元素。 因此,较大的Pvt ij指示来自不同模态的这两个实例之间较高的语义亲和力。

    其次,在跨模态哈希检索的应用中,通常的方法是将所有模态的原始实例的特征映射到一个公共的潜在哈希表示空间中。换句话说,对于图像实例V i和文本实例Tj,相应的散列表示Fi和Gj可以通过某些特征学习方法来生成,例如基于核的方法、深度神经网络等等。随后,按照大多数先前的方法,Fi和Gj的语义相似性可以用内积来评估[47],然而,如[49]所示,如果Fi和Gj的向量长度非常不同,则Fi和Gj的语义相似性将是不准确的,因此基于余弦的语义相似性更适合于表示FiGj的语义相似性。这里,我们将Fi和Gj的语义相似度定义如下:

其中Svtij是学习的散列表示Fi和Gj的余弦相似度。余弦相似性Svt ij的范围是[-1;1]。显然,Svtij越大,Fi和Gj的学习散列表示在语义上就越相似。

为了在特征表示学习过程中保持图像实例Vi和文本实例Tj的语义相似度,最有效的方法之一是最小化多标签语义相似度Pvtij和哈希表示的余弦相似度Svtij之间的差异。但是,PvtijSvtij的范围并不相同,因此很难比较这两个值。为了解决这个,现有的方法几乎都是直接映射Svtij∈[-1,1]到Qvtij∈[0,1]通过基于以下等式的简单线性变换:

其中Qvtij表示散列表示Fi和Gj在范围0中的相似性[0,1]。

然而,在几个跨模态基准数据集上的实际实验表明,这种简单的线性变换会限制所学习的散列二进制码的表示能力。我们发现,如果我们利用基于ReLU函数的Svtij上的以下转换,它可以显著提高跨模式哈希检索的性能。

这主要是因为散列表示Fi和Gj分别是散列码Bi和Bj的替代。如果Svtij=0,则表示Bi和Bj中有一半的bits是相同的。而如果Svt ij < 0,那么Bi和Bj是不同的,Bi和Bj中的大多数位是不同的,因此,我们可以基于ReLU函数将Qvtij=0的范围设置为尽可能接近S。作为进一步的参考,我们称之为等式4中的线性变换,并将变换命名为等式5作为ReLU转换。后续实验将比较这两种转换的性能,并演示ReLU转换的有效性。

在ReLU变换之后,我们可以直接缩小Pvtij和Qvtij之间的距离。大多数现有的CMH方法使用以下MSE(均方误差)来优化该距离测量:

其中Jvtinter是用于最小化多标签语义相似度Pvtij和散列表示相似度Qvtij的差异的目标函数。

然而,当使用基于欧几里德距离的损失函数时,很难最小化Pvt ij和Qvt ij之间的差并将其收敛到零。这可能导致次优的训练表现。事实上,因为Pvt ij在初始化后是固定的,在使Pvt ij和Qvt ij之间的差异最小化的过程中,我们必须迫使Qvt ij的值尽可能接近Pvt ij的值,这符合kull back-lei bler散度原则。因此,通过使用kull back–lei bler散度损失函数,我们可以利用Qvt ij来拟合Pvt ij的值,如下式所示:

其中r > 0是一个小标量,以防止分母为0,并保证对数中的操作数大于0。

通过分析Eq7,kull back-lei bler散度利用理论分布Qvt ij来拟合实际分布Pvt ij。在实际应用中,由于Qvt ij是实值变量Fi和Gj的连续函数,我们可以使用随机梯度下降(SGD)来最小化Jvtinter,以迫使Qvt ij尽可能接近Pvt ij的值。因此,这允许分别学习图像实例V i和文本实例Tj的最佳散列表示Fi和Gj。

此外,在给定训练图像V i和文本Tj对的某个训练时期,或者Pvtij=Qvtij,或者Pvtij>Qvtij,或者Pvtij<Qvtij。如果Pvtij =Qvtij,我们已经达到了Qvt ij的理想优化目标。如果Pvt ij > Qvt ij,则(k+Pvtij)/(k+Qvtij)> 1,因此log((k+Pvtij)/(k+Qvtij))> 0,因此Jvtinter> 0。我们可以在下一个时期减小Jvtinter的值,这增加了Qvtij的值,并且导致Qvt ij更接近Pvt ij,这也是优化目标。

如果Pvt ij < Qvt ij,则kþ Pvt ij kþ Qvt ij < 1,因此log kþ Pvt ij kþ Qvt ij < 0,因此Jvt inter < 0。这里,SGD优化器还应该减少Jvt inter的值,即减少log kþ Pvt ij kþ Qvt ij的值。s log kþ Pvt ij kþ Qvt ij < 0,它迫使Qvt ij达到更大的值,当Pvt ij < Qvt ij时,更大的Qvt ij会导致Pvt ij和Qvt ij之间的差异更大。但是这将违背优化目标。

基于上述分析,我们可以得出结论,利用标准kull back-lei bler散度来最小化Pvt ij和Qvt ij之间的差异可能会导致产生负损失值,这与强制Qvt ij的值接近Pvt ij是不一致的。为了解决这个问题,我们提出了一个新的正约束kull back-lei bler散度(正约束KL损失)损失函数:

来证明Eq8的有效性。我们如前分析Pvtij=Qvt ij和Pvt ij > Qvt ij,Pvt ij < Qvt ij的情况。对于大多数训练图像-模态实例V i和文本-模态实例Tj对在某个时期,如果Pvtij=Qvtij,那么Pvt ij-Qvt ij=0和log(kþ Pvt ij kþ Qvt ij)= 0,对于Qvt ij来说已经达到了理想的优化目标。如果Pvt ij > Qvt ij,那么Pvt ij-Qvt ij > 0,log k+Pvt ij k+Qvt ij > 0,因此Jvt inter > 0,对于SGD优化器,它减少Jvt inter的值,使Pvt ij?Qvt ij和log kþ Pvt ij kþ Qvt ij变得更小,因此迫使Qvt ij更接近Pvt ij,这与优化目标一致。如果Pvt ij < Qvt ij,那么Pvt ij-Qvt ij < 0,log k+Pvt ij k+Qvt ij < 0,因此Jvt inter > 0,SGD优化器还会减少Jvt inter的值,由于Pvt ij-Qvt ij < 0,log k+Pvt ij k+Qvt ij < 0,因此它迫使负的pvt ij-Qvt ij和负log k÷Pvt ij k÷Qvt ij更大,这使得Qvt ij更小,更接近Pvt ij的值,优化方向与优化目标一致。

基于上述等式。2,3,5,8,我们可以在哈希表示学习和哈希函数学习的过程中准确地保持图像模态实例V i和文本模态实例Tj多标签信息之间的语义相似性。

3.4.哈希表示学习网络

通过集成上述自监督语义生成模块和多标签语义相似性保持模块,设计了基于多标签增强的自监督深度交叉模态哈希(MESDCH)方法。MESDCH包括三个深度神经网络:LabelNet、ImgNet和TxtNet。LabelNet被设计用来学习原始多标签引导ImgNetTxtNet的学习,ImgNet用于学习图像模态的散列表示,TxtNet用于学习文本模态的散列表示

对于ImgNet,我们使用经典的CNN-F[64]。CNN-F在包含1000个图像类的ImageNet [65]数据集上进行了预训练。网络的最后全连接层具有1000维的输出通道。我们通过用具有k个隐藏节点的新的全连接散列层替换最后一层来微调CNN-F,将学习到的深度特征嵌入到k维汉明空间中。

对于LabelNet和TxtNet,我们从SSAH使用的TxtNet中获得灵感[51]。我们使用三层前馈神经网络和多尺度(MS)融合模型(输入---MS----4096---512---k)。MS融合模型由五个interp块组成,每个块由一个1×1个卷积层和一个平均池化层。由于LabelNet和TxtNet的输入数据维度不同,LabelNet和TxtNet不能共享参数。对于这三个深度神经网络,为了减少哈希表示和相应哈希码之间的gap差距,我们采用双曲正切(tanh)函数将深度神经网络的输出值映射到区间[-1,1]。

3.5.哈希函数学习

在MESDCH中,每个训练输入三元组由多标签实例、图像实例和文本实例组成。当学习它们相应的散列表示时,我们应该保持它们对于相同模态和不同模态的语义相似性。在这里,我们扩展了3.3小节中的多标签语义相似性保持模块,使得它可以处理不同的模态间和模态内。因此,模态间多标签语义相似性保持损失被定义为:

其中a是超参数,用于控制LabelNet训练的两个部分的权重。在训练TxtNet时,我们设置1和去掉Jvl inter这一项,在训练ImgNet的时候,我们设置一个0,在训练LabelNet的时候,我们需要找到a的最佳值。Jvl inter是模态间多标签语义相似性保持损失,用于最小化图像实例Vi和多标签Lj的多标签语义相似性Pvl ij和散列表示相似性Qvl ij之间的差异。Jtl inter是模态间多标签语义相似性保持损失,用于最小化文本实例ti和多标签Lj的多标签语义相似性Ptl ij和散列表示相似性Q t1ij之间的差异。Jvl inter和Jtl inter定义为:

其中Qvl ij是图像实例Vi和多标签Lj的散列表示相似性。Q tl ij是文本实例Ti和多标签Lj的散列表示相似性。

类似地,我们将模态内多标签语义相似性保持损失公式化如下:

其中,Jll intra是模态内多标签语义相似性保持损失,用于最小化多标签语义相似性Pll ij和多标签Li和Lj的散列表示相似性qll _ ij之间的差异。Jvv intra是模式内多标签语义相似性保持损失,用于最小化图像实例V i和VI的多标签语义相似性Pvv ij和散列表示相似性Qvv ij之间的差异。Jtt intra是模式内多标签语义相似性保持损失,用于最小化文本实例ti和Tj的多标签语义相似性Ptt ij和散列表示相似性Q tt ij之间的差异。Jll内部;Jvv intra和Jtt intra分别用于训练LabelNet、ImgNet和TxtNet,因此当使用其中一个时,其他两个会被忽略。Jllintra;Jvvintra和Jttintra定义为:

其中Q11ij是多标签Li和Lj的散列表示相似度。Qvij是图像实例V i和VI的散列表示相似性。Q tt ij是文本实例Ti和Tj的散列表示相似性。

此外,为了从所学习的散列表示中生成独特的散列码,我们应该最小化所学习的散列表示与其对应的散列码之间的差异,因此我们将量化损失公式化为:

其中F;G;h分别是来自图像模态、文本模态和多标签模态的所有实例的散列表示。b是所有训练实例的散列码矩阵。

结合模态间多标签语义相似性保持损失Jinter、模态内多标签语义相似性保持损失Jintra和量化损失Jquantization来定义最终的目标损失函数:

其中B和c是控制每个部分的权重的超参数,B是所有实例O和Wv的最终散列码的集合;Wt和Wl分别是ImgNet、TxtNet和LabelNet的深度神经网络参数。

为了提高探索跨模态数据之间语义相关性的能力,我们提出通过估计整个跨模态训练数据集的模态间和模态内损失来将哈希函数学习加强到网络中。为了实现这个目标,我们首先构建一个 memory bank[60],用于存储所有训练数据的最新散列表示。因此,存储体包含N个槽,其中每个槽存储训练数据的散列表示和标签。在初始化期间,我们基于标准的高斯分布来初始化存储体中所有散列表示的值。在每次训练迭代期间,对于每个成对训练实例,我们通过深度神经网络将其转发,并获得相应的哈希表示。在反向传播过程中,我们通过Fi更新哈希表示;分别是Gi和Hi。因此,在每个时期,我们基于存储体中所有最新的散列表示来计算inter-loss, intra-loss 损失以及量化损失。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值