Multi-Label Hashing for Dependency Relations Among Multiple Objectives

本文提出了一种名为DRMH的深度哈希方法,用于多标签图像检索。该方法利用目标检测网络捕获物体特征,通过自注意力机制处理对象间的关系,并用加权成对哈希损失解决训练样本匹配不均衡问题。实验显示DRMH在多标签数据集和零样本数据集上表现出色,提高了检索效率和准确性。
摘要由CSDN通过智能技术生成

这是一个科技论文的题目。该论文研究了多标签哈希技术在依存关系中的应用,探讨了如何同时满足多个目标。具体地说,该论文提出了一种新的哈希方法,

在这篇论文中,多标签指的是一个图像可能包含多个物体,并且每个物体都有多个标签(类别)的情况。例如,一张图像中可能同时存在狗和树,并且狗可以被标记为“动物”、“宠物”等多个类别,树也可以被标记为“植物”、“自然景观”等多个类别。因此,在这个环境下,多标签哈希旨在将每个物体及其对应的所有标签映射到一个二进制码中。

称为 Multi-Label Hashing for Dependency Relations Among Multiple Objectives(多目标依存关系多标签哈希),它可以将依存句法分析结果哈希为紧凑的

二进制编码,并保留多个目标函数,如哈希码的相似性和精度等。通过实验,该方法显示出了其他现有方法无法达到的良好性能。

该论文的主要贡献是提出一种新颖的哈希方法,为依存关系处理和多目标优化提供了新的思路。这项研究对于推动自然语言处理领域的发展具有重要意义,

有助于提高依存分析的效率和准确性,从而促进了诸如机器翻译和智能问答等任务的应用。

本文探讨了学习哈希函数在大规模图像检索中的应用。现有的方法通常使用CNN一次性处理整个图像,这对于单标签图像是有效的,但对于多标签图像则不太适用。首先,这些方法不能充分利用一个图像中不同对象的独立特征,导致一些具有重要信息的小对象特征被忽略。其次,这些方法不能捕捉到对象之间的不同语义信息和依赖关系。第三,在存在难易训练样本匹配不均衡时,现有方法都会忽略其影响,从而导致哈希码质量不佳。为解决这些问题,本文提出了一种新型的深度哈希方法,称为多目标依存关系多标签哈希(DRMH)。该方法首先利用物体检测网络提取对象特征表示,避免忽略小对象特征,然后将对象视觉特征与位置特征融合,并进一步利用自注意力机制捕捉对象之间的依赖关系。此外,本文设计了加权成对哈希损失函数,以解决难易训练样本匹配不均衡的问题。实验表明,DRMH在多标签数据集和零样本数据集上表现优异,相对于许多现有的哈希方法,在不同的评估指标上都有很好的性能。

因为锁的不同位置而导致语义不同。

本文指出了深度哈希方法在图像检索中存在的一些弱点: (1) 这些方法通常将整个图像视为一个单独的实体,即它们使用卷积神经网络(CNNs)一次性处理整个图像。这种方法对于单标签图像是有效的,但是对于多标签图像,这些方法不能充分利用不同对象之间独立的特征,因此模型可能只关注一些显著的对象并忽略其他包含重要信息的小对象。 (2) 现有的哈希方法无法利用图像对象之间的关系信息。例如,图1中的两个图像都标记为自行车和锁,但是不同的锁位置代表不同的语义(锁着和没锁着)。 (3) 我们观察到许多深度哈希方法在训练后无法保留原始空间的相似性。例如,在图2(a)中,两对样本(A,B)和(A,C)之间的原始距离相同。然而,在训练后,(A,C)的汉明距离适当,而(A,B)的汉明距离过远(图2b)。我们将(A,B)称为困难训练对,(A,C)称为容易训练对。现有的方法忽略了不平衡的困难和容易训练对的影响,导致困难训练样本对的训练不足,无法获得最佳哈希码。为解决以上问题,本文提出了一种新的多标签哈希方法,即依赖关系对象哈希(DRMH)。首先使用目标检测网络提取对象特征表示以避免忽略小对象特征。为了学习更丰富的特征信息,我们首先将图像中的相对对象位置信息嵌入视觉对象特征中,然后使用自注意机制进一步捕捉对象之间的依赖关系,以更好地学习图像的全局特征。在哈希学习阶段,使用精心设计的带权对哈希损失、对称化量化损失和分类损失构建综合损失函数。带权对哈希损失旨在保持样本对的相似性,并根据训练样本对的难度施加各种权重,使困难的样本得到充分训练。量化损失用于减少实值量化误差以保留成对相似性。分类损失用于提高哈希码中保留的图像类特征信息。本文的主要贡献如下:(1) 提出一种新的多标签深度哈希方法,使用目标检测网络提取图像对象特征信息,进一步探索对象之间的依赖关系。(2) 提出一种新颖的带权对哈希损失,充分训练困难训练样本对,从而缓解困难和容易训练对之间的不平衡的影响。(3) 实验结果表明,该方法在多个多标签数据集和零样本数据集上超过了现有方法,具有不同的评估指标。

1本文分析了哈希方法的两个主要类别: 传统哈希方法和深度哈希方法。根据是否使用深度学习,哈希方法可以分为传统方法和深度哈希方法; 根据在训练过程中是否使用类标签信息,哈希方法可以大致分为无监督和监督哈希方法。本文介绍了传统哈希方法的两种类型: 无监督哈希方法和监督哈希方法。无监督哈希方法主要使用手工制作的特征进行哈希学习,如迭代量化(ITQ)、k均值哈希(KMH)、谱哈希(SH)等。监督哈希方法在网络训练过程中使用人工标注信息学习紧凑哈希码,如二进制重构嵌入(BRE)、基于核的有监督哈希(KSH)和有监督离散哈希(SDH)等。这些监督方法通过最小化相似样本对之间的汉明距离,最大化不同样本对之间的汉明距离来学习哈希函数。与无监督哈希方法相比,监督哈希方法可以缓解哈希学习过程中引入的语义鸿沟问题。

1二、相关工作 根据是否使用深度学习,哈希方法可以分为传统方法和深度哈希方法,根据训练过程中是否使用类别标签信息,它们可以大致分为无监督和有监督哈希方法。 A. 传统哈希方法 传统哈希方法主要使用手工设计的图像特征进行哈希学习。 1)无监督哈希方法:这些方法在高维语义描述和低维特征描述之间基本存在语义差异。Gong和Lazebnik [6]通过交替优化的正交矩阵搜索引入了一种名为迭代量化(ITQ)的哈希方法。He等人[7]提出了k-means哈希(KMH),可以在执行k-means聚类并考虑量化和距离逼近的同时学习量化单元的索引。与ITQ相比,KMH缩放超立方体以实现较小的量化误差。Weiss等人[8]提出了谱哈希(SH)与图学习作为学习目标,将哈希编码视为谱图划分问题,并学习在海明空间中的非线性映射以保持数据的语义相似性。 2)有监督哈希方法:有监督哈希方法使用人工标记信息在网络训练期间学习紧凑的哈希代码,减轻了哈希学习过程引入的语义差距。Kulis和Darrell [9]提出的二进制重构嵌入(BRE)通过最小化原始特征距离与重构的海明距离之间的平方误差来学习哈希函数。Liu等人[10]提出了带核函数的有监督哈希(KSH),旨在最大化海明空间中相似和不相似样本对之间的可分性。与KSH类似,Shen等人[11]提出了有监督离散哈希(SDH),也通过最小化类似样本对之间的汉明距离并最大化不相似样本对之间的汉明距离来学习离散二进制哈希代码。

B. 深度哈希方法 相比于传统的手工特征或浅层特征,深度特征具有更强的表示能力。深度卷积神经网络(CNN)在常规计算机视觉任务上取得了突破性的性能,例如物体检测[12]和语义分割[13],因此基于深度学习的哈希方法[14],[15]也吸引了许多学者的关注。 1)无监督深度哈希方法:Lin等人[16]提出了深度二进制描述符(DeepBit),它通过无监督学习二进制哈希码和非线性哈希函数来优化网络参数,从而最小化量化误差并强制二进制码的均匀分布。Ma等人[17]将GAN网络结合起来设计了一种新的无监督渐进式生成哈希(PGH)框架,使用GAN合成样本进一步提高模型的泛化能力。Zhang和Qian [18]提出了基于自编码器的无监督聚类和哈希(AUCH)方法,以同时完成哈希学习和无监督聚类。Qin等人[19]提出了无监督深度四元组哈希与等距量化(UDQH-IQ),设计了一种新的四元组损失算法,通过利用图像的旋转不变性来探索图像对之间的潜在语义相似性,可以保留汉明空间中与其邻居的局部相似性。 2)有监督深度哈希方法:Xia等人[20]提出了一种两阶段学习策略卷积神经网络哈希(CNNH),其中在第一阶段学习哈希码通过构建成对相似度矩阵,然后在第二阶段使用哈希码学习基于深度网络的哈希函数。然而,该方法学习的图像特征表示无法反馈到哈希编码中,深度学习的潜力没有得到充分发挥。Lai等人[21]改进了CNNH并提出了深度神经网络哈希(DNNH),它可以同时进行特征学习和哈希编码,使图像表示和哈希码可以在联合学习过程中相互改善。为了减小由于单独量化步骤引起的量化误差,Zhu等人[22]提出了深度哈希网络(DHN)来改进DNNH,通过同时优化成对交叉熵损失和量化损失来保持成对语义相似度并控制量化误差。Cao等人[2]提出了HashNet,它使用连续比例策略来近似离散二进制码,并考虑类别不平衡性来从相似数据对中获得相似的二进制码。Jiang等人[23]提出了DDSH,它可以利用成对监督信息直接引导离散编码过程和深度特征学习过程,从而增强这两个重要过程之间的反馈。Cakir等人[24]提出了MIHash哈希算法,用于优化互信息,使用深度神经网络和最小批次随机梯度下降来优化互信息,以减少哈希空间中诱导邻域结构的歧义并实现高检索精确性性能。Zhang等人[25]提出了基于CapsNet的有监督哈希(CSH),将图像分类和检索任务组合成一个单一的学习模型,充分利用数据分类信息来引导哈希学习。Yuan等人[26]提出了基于隐藏多距离损失的全卷积哈希(HLFH),它是一个由全卷积组成的哈希网络,并设计了一个隐藏多距离损失来优化样本之间的汉明距离。Wang等人[27]提出了一种新的深度语义重构哈希(DSRH),通过引入成对相似度保持的量化约束来保留学习良好的成对相似性。Morgado等人[28]提出了一种语义HCLM(sHCLM),它使用代理嵌入技术来学习高度具有区分力的哈希码,并设计了一个语义哈希一致的大间隔代理算法来减少量化误差。

C. 多标签哈希方法 最近,研究方向逐渐转向多标签学习领域,可以利用更多的监督信息进行训练。 1)哈希方法:赵等人[29]提出了深度语义排名哈希(DSRH),它结合了语义排名方法和深度哈希模型,解决了保留多级相似性的多标签图像问题。吴等人[30]提出了深度多层语义相似性保持哈希(DMSSPH)。DMSSPH是第一个基于配对标签的深度有监督哈希方法,可以保留其多层语义相似性。秦等人[31]提出了具有精细特征学习的深度哈希(DHFFL),它采用归一化紧凑双线性池卷积神经网络提取精细特征用于哈希学习,以保留多级语义相似性。谢等人[32]提出了标签关注哈希(LAH),通过使用图卷积网络(GCN)提取标签特征并将其与图像特征融合来提高模型性能,改善模型的能力。与只能从特定真实样本中学习哈希函数的方法不同,陆等人[33]提出了对抗多标签变分哈希(AMVH),它使用对抗方法从合成和真实数据中学习哈希函数,使模型对未见过的数据有效。 2)哈希损失函数:在多标签哈希方法中,损失函数的设计尤其重要。DSRH[29]使用三元组集合上的排名损失作为替代损失来解决非平滑和多元排名度量的优化问题。DMSSPH[30]通过编码输入图像对的类标签信息来最大化输出空间的可分离性,损失函数考虑不同程度的相似性,通过正则化实数输出来逼近离散值。与DMSSPH类似,李等人[34]提出了深度多相似性哈希(DMSH)来探索多级相似性。不同之处在于,对于图像对共享的标签,他们设计了一种配对损失函数,引导CNN学习图像对之间的相似性,共享更多标签的图像对更相似。为了直接优化搜索结果顺序,马等人[35]提出了排名一致性深层哈希(RCDH),使Hamming空间中的相似顺序与原始空间中的相似顺序一致,并利用排名一致性目标函数来对齐Hamming空间和原始空间。秦等人[36]提出了具有类别损失的深度最高相似性哈希(DTSH-CW)。他们设计了一个顶级相似性损失,直接使用类别标签,结合高斯分布进行优化,以确保顶级查询结果与查询图像之间的语义相似性。张等人[37]提出了改进的深度哈希网络(IDHN),将配对相似性分为“硬相似度”和“软相似度”。他们构建了“硬相似度”的交叉熵损失和“软相似度”的均方误差损失,并使用联合损失来学习哈希码。

D. 零样本哈希方法 零样本哈希是一种将零样本学习和哈希技术相结合的方法,旨在利用从已知类别中学习到的哈希函数对未知类别进行编码 [38]。Guo等人[39]采用名为SitNet的多任务架构,使用离散哈希层同时利用监督信息和语义向量。Zhang等人[40]提出了一种基于图像和语义属性的正交投影的新型哈希方法,它保证了来自不同类别的生成哈希码具有相等的汉明距离,从而最大化了判别空间。Ji等人[41]提出了一种新颖的属性导向网络(AgNet)用于跨模态零样本哈希学习,它将不同模态的数据对齐到丰富的属性空间中,并为不同的模态生成不同的哈希码。Tu等人[42]通过基于语义引导的标签原型学习(SemanticHash)提出了哈希编码方法,他们通过词嵌入空间学习每个标签的K位原型。Zou等人[43]提出了一种基于推导的零样本哈希方法(T-MLZSH),它使用已知数据训练实例概念一致性排名算法来预测未知数据的标签,然后结合预测的标签生成未知类别的哈希码。Shi等人[44]提出了一种新颖且高效的有监督哈希方法SASH,它可以同时从标记数据学习哈希函数和哈希码,并设计了一种有效的迭代算法来优化模型。

E. 总结 大部分现有的深度哈希方法挖掘图像之间的相似性信息,并设计有效的损失函数来提高检索性能。然而,存在三个可以改进的弱点:(1)它们使用CNN一次处理一幅图像,导致一些小目标特征被忽略。(2)只使用图像的视觉特征信息,而忽略了对象之间的关联信息。(3)忽略了难易样本对之间不平衡的影响,导致哈希码不够优秀。我们提出的DRMH试图解决上述问题。

III. 提出的DRMH方法 设X = {x1, ······, xN} ∈RD×N表示训练集中的N个样本,每个样本由D维特征向量表示。对应的类别标签矩阵表示为Y = [y1, ······, yN]∈{0,1}C×N,其中C表示类别数目。哈希方法的目标是学习一个映射函数F:X→B∈{−1,+1}K×N,将输入空间映射到哈明空间,并将每个样本xi∈{1,2,...N}编码成紧凑的K位二进制码。在表I中,我们总结了使用的符号。

A. 网络架构 为了解决前面提出的问题,我们使用Faster R-CNN [45]将图像分割为对象,避免忽略小的目标特征。然后提取对象特征表示,包括视觉特征和位置特征,并在对象级别上进行融合。为了能够挖掘对象之间的完整关系,如对象之间的不定距离依赖关系,我们使用自注意机制[46]探索相互依赖信息,并随后进行哈希学习以学习更好的哈希码。图3展示了我们提出的架构,它包括四个模块:特征提取模块、特征融合模块、依赖关系探索模块和哈希学习模块。

图3. DRMH的架构由四个关键模块组成:1)特征提取模块:针对每张图像,输出表示为视觉特征向量和位置向量的M个对象;2)特征融合模块:通过全连接层将上述两种向量融合;3)依赖关系探索模块:通过自注意力机制捕捉图像中任意两个对象之间的依赖关系;4)哈希学习模块:整合三种损失函数来训练网络。

B. 详细模块介绍 1)特征提取模块:对于每个图像,我们采用 Faster R-CNN 的最终输出,并通过 IoU 阈值进行非极大值抑制以获得 M 个对象。每个对象都表示为特征向量,即 Vdv = (v1,···,vM),其中 vi ∈ R dv(dv = 2048)表示第 i 个对象的视觉特征向量。每个对象还有其位置向量。为了减少对象的位移影响,我们首先减去所有对象的最小坐标,然后计算每个对象的位置向量相对于上述最小坐标的位置,即 Pdp = (p1,···,pM),其中 pi = (xi1,yi1,xi2,yi2) ∈ R dp。这里 xi1,yi1,xi2,yi2 分别表示第 i 个对象的左上角和右下角坐标。

2)特征融合模块:为了将视觉特征和位置特征融合,我们使用加权融合策略,其中加权因子通过自我注意力机制(self-attention)来学习得到。具体来说,我们将视觉特征向量和位置特征向量都输入两个全连接层中,并得到两个维度为 dz 的特征矩阵 Fv ∈ R M × dz 和 Fp ∈ R M × dz。同时,我们还通过 self-attention 机制计算其自注意力矩阵 Fsa ∈ R M × M ,其中 Fsa(i, j) 表示第 i 个对象和第 j 个对象之间的相互依赖性。自注意力计算公式如下: Z = [Fv;Fp] L = ReLU(Wq Z) A = Softmax (Wk Z) Fsa = (Wv L) AT A 这里 Wq、Wk 和 Wv 分别表示三个全连接层的权重矩阵,ReLU 表示整流线性单元激活函数,Softmax 表示 Softmax 函数,AT 表示矩阵转置操作。最后我们将自注意力矩阵 Fsa 与视觉特征矩阵 Fv 和位置特征矩阵 Fp 进行加权融合得到融合特征矩阵 G,其中加权因子为 L = Fsa(Z) 和 M A = Softmax(LT L)。这里 M A 相当于对 L 进行归一化。为了更好地适应不同类别数据的特点,我们对位置特征的权重参数进行自适应校准。具体来说,我们使用标签矩阵 Y,将其与位置特征矩阵 Fp 相乘,得到 C×d z 维的权重矩阵 A = YFp,并堆叠成 M×C×d z 的矩阵 Astack。随后,我们将其送入一个全连接层中,并得到 C×d z 维的校准权重矩阵 Ap = Wp(Astack)。最后,我们将 Ap 与原位置特征矩阵 Fp 相乘,得到校准后的位置特征矩阵 Fp'。

3)依赖关系探索模块:为了挖掘对象之间的完整关系,我们使用自注意力机制对特征矩阵 G 进行操作。具体来说,我们先将其输入两个全连接层中,并得到维度为 dz 的特征矩阵 L = ReLU(Wa G) 和 d z × d z 的自注意力矩阵 A = Softmax(Wb GGT)。其中 Wa 和 Wb 分别表示两个全连接层的权重矩阵。然后,我们通过 A 对 L 进行加权求和,得到最终的特征向量 f' = A L,其中 A 是矩阵 A 对每一列的加权结果。该操作可以对每个图像提取出一个紧凑的特征向量 f'。

4)哈希学习模块:将图像 xi 输入网络后,我们可以获得经过前面操作后的图像特征向量 fi ∈ R dz。然后,我们按照图像特征向量进行哈希学习。设 W ∈ R dz×K 和 o ∈ R K 分别表示哈希层 Fh 的权重和偏差。哈希层的激活值可以计算为 hi = tanh(fiW + o)。最后,我们将 hi 转换为紧凑二进制码 bi ∈ {−1, +1}K,即可完成哈希学习。

加权的成对哈希损失(Weighted Pairwise Hash Loss)是用于哈希码学习的一种新型损失函数。为了更好地训练哈希码,该算法提出了三种不同的损失函数:加权成对哈希损失、成对量化损失和多标签分类交叉熵损失。这三种损失函数被结合使用,共同监督网络的训练,生成更好的二进制码。其中,加权成对哈希损失是为解决困难训练样本与易样本之间失衡问题而设计的。它利用成对相似性矩阵来表示样本对之间的相似关系,并通过加权项来调节困难和简单训练样本对之间的不平衡性。最终将哈希损失作为加权项应用于损失函数中。

成对量化损失(Pairwise Quantization Loss)是用于哈希码学习的一种损失函数。它通过量化网络输出的连续值来产生二进制码,以提高哈希码的质量。该算法采用了平均池化操作来计算成对平均量化误差,其中每个样本的码字与所有其他样本的码字进行比较。相对于加权成对哈希损失,成对量化损失能够处理噪声和错误数据,从而使网络更加鲁棒,并提高哈希码的可靠性和有效性。

多标签分类交叉熵损失(Multi-Label Classification Cross-Entropy Loss)是用于哈希码学习的一种损失函数。该算法被用于解决具有多个类标签的图像分类问题,其中每个样本可以属于多个类别。该算法利用了交叉熵损失函数来优化网络,使其能够将样本正确地分类到多个类别中。与常规的图像分类任务不同,该算法需要计算多个二进制码,并对它们进行联合优化。多标签分类交叉熵损失能够使网络产生更加准确和可靠的哈希码,从而提高图像检索和图像分类任务的性能。

优化

通过将公式(8)到(10)整合,可以得到如下定义的总损失函数: L = Lc + αLh + βLq,(11) 其中,α和β是用于控制每个损失函数权重的超参数。基于公式(11),可以通过保持成对样本的合适汉明距离和维护良好学习的成对相似性来获得二进制哈希码。 在训练阶段,我们采用标准的反向传播算法和小批量梯度下降方法来优化损失函数。由于绝对值函数|·|无法进行微分,其导数也难以计算,因此我们使用平滑的绝对值替代函数|q| = log cosh(q) [50]。接着,公式(8)和公式(9)可以进一步表示为对哈希层输出hi的梯度,记作∂Lh / ∂hi,计算如下所示: 对哈希层输出hi的Lq梯度,记作∂Lq / ∂hi,计算如下所示: 对分类层输出˜yi的Lc梯度,记作∂Lc / ∂ ˜yi,计算如下所示: 然后使用上述梯度信息和反向传播算法通过链式法则更新网络的参数。算法1总结了详细步骤。

过程

输入:训练数据X,标签数据Y,哈希码长度K,最大迭代次数Max_Iteration,超参数a和β。 输出:二进制代码B和经过训练的哈希模型。 对于iter = 0, 1, …, Max_Iteration 从训练数据X中构造一个小批量; 对于小批量中的每个a,执行以下步骤: 使用Faster R-CNN提取特征向量矩阵V和P; 通过特征融合模块获得融合特征向量矩阵z; 通过依赖关系探索模块获得样本特征向量f; 获得哈希层输出h; 获得分类层输出gy; 对于每一对图像,根据公式(11)计算总体损失; 根据公式(14)、(15)和(16)计算梯度3D,oh和op; 通过反向传播更新参数; 返回B和经过训练的哈希模型。

VI. 结论 本文提出了一种基于多目标依赖关系的多标签图像检索方法,利用目标检测网络提取图像中的物体特征信息并通过自注意力机制探索目标间的依赖关系。与现有的深度哈希方法相比,它避免了忽略小目标特征,并利用了目标之间的关系信息。在哈希学习阶段,构建了加权的成对哈希损失,用于训练难样本对,从而减少了难样本和易样本之间不平衡对哈希网络的影响。此外,引入了成对量化损失和多标签分类交叉熵损失,以有效保留学习良好的成对相似性并提高二进制码的区分能力。在多标签数据集和零样本数据集上进行了广泛实验,所提出的DRMH在不同评估指标上优于许多最先进的哈希方法。作为未来工作,我们计划继续利用依赖关系来提高图像检索的性能。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值