Label Consistent Matrix Factorization Hashingfor Large-Scale Cross-Modal Similarity Search(LC)--文献翻译

论文链接:IEEE Xplore Full-Text PDF:

摘要


        多模态哈希因其效率和有效性而引起了对大规模多媒体数据集的跨模态相似性搜索的极大兴趣。最近,有监督的多模态散列试图保留从训练数据的标签中获得的语​​义信息,与无监督的多模态哈希相比,由于其更高的搜索精度而受到了相当大的关注。尽管这些算法很有前景,但它们主要是为了保持成对相似性而设计的。当给定训练数据的语义标签时,算法往往将标签转化为成对相似度,这会产生以下问题:(1)构建成对相似度矩阵需要巨大的存储空间和大量的计算量,使得这些方法无法扩展到大规模数据集; (2) 将标签转换成两两相似度会丢失训练数据的类别信息。因此,这些方法不能使哈希码保留标签所反映的判别信息,从而影响这些方法的检索精度。为了应对这些挑战,本文介绍了一种简单而有效的监督多模态哈希方法,称为标签一致矩阵分解散列(LCMFH),其重点是直接利用语义标签来指导哈希学习过程。考虑到来自不同模态的相关数据具有语义相关性,LCMFH 将异构数据转换为潜在语义空间,其中来自同一类别的多模态数据共享相同的表示。因此,通过获得的表示量化的哈希码与原始数据的语义标签一致,因此可以对跨模态相似性搜索任务具有更大的判别力。对标准数据库的彻底实验表明,所提出的算法优于几种最先进的方法。

        1、介绍

        随着多媒体数据的爆炸式增长,在大规模数据集上执行高效和准确的相似性搜索已成为一个具有挑战性的问题 [1]、[2]。为了解决大规模相似性搜索问题,已经提出了各种基于散列的方法,这些方法将原始特征空间中的相似数据点映射到低维汉明空间中的相邻二进制码,因为它们具有显着的效率增益和存储减少。早期的努力在哈希模型方法 [3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14 ]。他们专注于学习紧凑哈希码对于来自单峰数据的单一类型的特征。然而,随着互联网和社交网络的快速发展,产生了大量的多媒体数据。具有相同语义的多媒体数据以不同的形式存在是很常见的。例如,Flickr 中的图像通常与相关的文本描述相关联,或者 Facebook 中的微博由成对的文本和图像组成。因此,希望在多模态数据集上设计哈希方法。

        为了促进跨模态检索,近年来已经提出了许多多模态哈希方法[15],[16]。根据是否使用监督信息,多模态哈希方法可以分为两类:无监督方法和监督方法[17]。无监督方法通常探索异构数据的相关性并保留获得的二进制代码相关性。主要有两种类型的无监督多模态散列方法。基于图的方法构建相似图以保留哈希码的相关性。然而,它们在计算相似图 [18]、[19]、[20] 时训练复杂度高。基于矩阵分解的方法避免了大规模的图构建过程。他们寻找潜在的语义空间来寻找多模态数据中的相关性[21]、[22]、[23]、[24]。然而,这些方法不能利用语义标签等监督信息来进一步提高搜索精度。

        有监督的多模态散列方法试图保留从训练点的语义标签获得的语义相关性,比无监督的多模态散列方法具有更高的准确性。因此,它们近年来受到越来越多的关注。监督多模态散列的第一次尝试是跨模态相似性敏感散列(CMSSH)[25]。在这种方法中,散列过程被表示为具有正负对的二进制分类问题,并且可以从提升的角度有效地学习。

         然而,CMSSH 只保留了模态间的相关性,而忽略了模态内的相关性。为了同时保持模态内和模态间的相似性,Kumar 等人。将传统的光谱散列扩展到多模式设置并提出交叉视图散列(CVH)。 CVH 通过解决广义特征值问题 [26] 来最小化数据对之间的加权平均距离。然而,特征值分解过程在增加位数时会显着降低映射质量,因为大部分方差都包含在前几个特征向量中。多潜在二进制嵌入(MLBE)采用生成概率模型来学习隐藏在数据中的二进制潜在因素,并将二进制潜在因素视为哈希码 [27]。但是,MLBE 生成的哈希码不需要不同哈希位之间的独立性,并且可能导致高度冗余的哈希位。保留语义的散列(SEPH)通过最小化它们之间的 Kullback-Leibler 散度(KLD)[28]来近似具有待学习散列码的成对相似矩阵。上述有监督的多模态散列方法主要是为了保持成对相似性。当语义标签而不是成对相似性可用时,上述方法通常将标签转换为成对相似性,这导致训练时间复杂度高。语义相关最大化 (SCM) 通过将语义标签无缝集成到用于大规模数据建模的散列学习过程中来避免这种类型的转换过程 [29]。它通过语义标签向量之间的余弦相似度构造成对语义相似度,然后用待学习的哈希码近似成对相似度矩阵。

        虽然很少有人尝试对有监督的多模态散列进行尝试,但这些方法通常具有共同的目标,即保持散列码的成对相似性。然而,这样的策略往往会导致以下问题。首先,当语义标签而不是成对相似性可用时,大多数现有方法都存在时间复杂度高的问题[25]、[26]、[27]、[28]。具体来说,对于 n 个标记数据点,构建成对相似度图的时间复杂度为 Oðn2Þ。因此,相似度图带来的大量计算和巨大的存储空间使得这些方法无法扩展到大规模数据集。其次,这些方法[25]、[26]、[27]、[28]、[29]利用成对相似性来指导编码过程;换句话说,它们保留了数据点之间的逐点相似性。但是,属于同一类别的数据通常具有共享属性和区分属性,以将它们与其他类别的数据区分开来。将标签转换为成对相似性时,数据的类别信息会丢失。因此,这些方法忽略了数据的类内相似性和类间差异;但是,这些信息对于检索很重要。

        为了解决这些问题,本文提出了一种新的有监督的多模态哈希方法,称为标签一致矩阵分解哈希(LCMFH),直接使用语义标签来指导哈希学习过程。 LCMFH 的主要概念是来自同一语义类别的异构数据共享属性,并且可以在潜在语义空间中由相同的表示表示。这样,通过获得的表示量化的哈希码与原始数据的语义标签一致,因此可以对跨模态检索任务具有更大的辨别力。图 1 说明了提议的 LCMFH 的流程图。它首先将异构数据矩阵联合分解为潜在语义空间,并让统一表示成为语义特征与标签作为系数的线性组合。接下来,通过量化统一表示来产生哈希码。此外,该方法学习了用于样本外扩展的线性投影矩阵。因此,在搜索阶段,可以直接利用线性投影来生成二进制哈希码。拟议的 LCMFH 的主要贡献总结如下:

        

1、提出了一种在潜在语义空间中鼓励标签一致性的新矩阵分解方法,用于学习判别哈希码。它明确地利用异构数据及其语义标签来学习潜在语义空间,并保证相应的统一表示与语义标签一致。因此,统一表示量化的哈希码更好地保持语义相似性。
2、通过直接利用标签信息而不是成对相似度矩阵,所提出的方法保留了哈希码的判别信息,从而获得了更高的有效性和效率。
3、彻底的实验结果表明,所提出的方法在检索准确性和可扩展性方面都优于最先进的监督多模态哈希方法。

本文的其余部分安排如下:第 2 节介绍了所提出的标签一致矩阵分解散列模型及其理论分析。第 3 节介绍了使用四个真实数据集的实验结果和比较。最后,结论在第 4 节中提出。

2 标签一致矩阵分解哈希

        在本节中,我们将介绍提议的 LCMFH 的详细信息。首先,开发了标签一致矩阵分解方法以揭示潜在语义空间和统一表示。其次,为样本外扩展学习哈希函数。最后给出了LCMFH的总体目标函数和理论分析。

        为了简化演示,我们首先关注双峰数据的哈希码学习。在不失一般性的情况下,它可以很容易地扩展到具有更多模态的案例。

        2.2 标签一致矩阵分解

        众所周知,与同一主题相关的多媒体数据通常以不同的形式存在,例如,一篇新闻文章通常由文本描述和图像组成。由于来自不同模态的相关数据具有语义相关性,因此将原始多模态数据转换为潜在语义空间可以最大化它们的互相关性,从而提高跨模态检索的准确性,如许多现有研究 [21]、[22]、[24]、 [30]。矩阵分解,它学习一个潜在的低维空间来充分重建原始数据,是学习隐藏在原始数据中的潜在信息的最有用的工具之一[31],[32]。许多无监督的多模态散列方法使用矩阵分解将数据从原始特征空间转换为潜在语义空间。集体矩阵分解散列 (CMFH) [22]、潜在语义稀疏散列 (LSSH) [21] 和稀疏多模态散列 [23] 通过矩阵分解寻找潜在的低维空间,以充分重构多模态数据并将重构系数量化为获取二进制代码。语义主题多模态散列(STMH)[24] 使用稳健版本的矩阵分解来发现隐藏在图像中的语义概念。这些方法的良好性能证明了矩阵分解在多模态哈希学习应用中的有效性。

        然而,传统的矩阵分解方法本质上是无监督的,不能利用标签信息。因此,它不适用于有监督的多模态哈希问题。为此,我们提出了一种新的矩阵分解方法,称为标签一致矩阵分解,用于多模态哈希码学习任务。它联合利用异构数据及其语义标签来学习基向量和表示。这种方法保证共享相同标签的数据点将具有相同的潜在语义以这种方式,学习到的语义表示可以具有更多的判别力。

        给定特征矩阵 X 和 Y,使用对应的语义标签矩阵 L,提出的标签一致矩阵分解联合找到基向量矩阵 Ux ¼ ux 1;用户体验 2; . . . ; ux k ? ? 2 Rdx?k 和 Uy ¼ uy 1; 2; . . . ;好吗? ? 2 Rdy?k 与统一表示矩阵 V ¼ v1 相关联; v2; . . . ; vn½ ? 2 Rk?n 精确逼近原始矩阵 X 和 Y,例如 X ? UxV 和 Y ? UyV,其中 k 是哈希码的长度。通过矩阵分解,每个特征向量由基向量的线性组合近似,由相应的表示加权。事实上,基向量矩阵 Ux 和 Uy 捕获了原始数据的更高层次的特征,并且可以被视为形成隐藏在多模态数据中的潜在语义空间的基向量,V 表示潜在语义空间中的统一表示。

        为了结合标签信息,我们通过引入辅助矩阵 Z ¼ z1;½ z2; 对 V 施加标签约束。 . . . ; zc? 2 Rk?c 为 V ¼ ZL,其中 c 是类别数。 Z中的每一列zi是一个系数,通过基向量形成第i个类别的语义信息。因此,zi 是隐藏在潜在语义空间 Ux 和 Uy 中的第 i 个类别的统一语义特征。每个数据值应包含其所属类别的语义特征,即 vj ¼ Zlj ¼ Pc i=1 lijzi 。因此,统一表示 V 是语义特征的线性组合。使用 Frobenius 范数作为成本函数,所提出的标签一致矩阵分解可以表示为

         在 \lambda属于0,1是平衡两个部分的参数。

        因为(3)中的统一表示V与语义标签密切相关,所以很容易确认当两个数据点共享相同的标签时(无论它们属于相同的模态还是不同的模态),即li ¼ lj,并且它们在新的重建空间中将具有与 vi ¼ vj ¼ Zli ¼ Zlj 相同的表示。因此,模态内语义相似性和模态间语义相似性都由表示 V 保留。

        得到统一表示V后,可以将V量化为哈希码

         因此,获得的哈希码也保留了模内语义相似度和模间语义相似度。

        请注意,尽管 CMFH、LSSH、STMH 和提议的 LCMFH 在其学习过程中都使用矩阵分解,但它们的主要概念是不同的。首先,LCMFH 是一种监督方法,而其他方法是无监督方法。 LCMFH 联合利用异构数据及其语义标签来学习哈希码。它的主要概念是保证具有相同标签的数据点具有相同的哈希码。也就是说,LCMFH 打算保留标签给出的语义相似性。相比之下,CMFH、LSSH 和 STMH 从数据分布中学习哈希码,以保持训练数据的欧几里得相似性。其次,LCMFH 对所有模态利用矩阵分解,并结合约束来保证共享相同标签的数据点在新的重建空间中具有相同的表示。 CMFH 利用集体矩阵分解来学习所有模式的统一哈希码。 STMH 学习一种模态的二进制代码,并通过矩阵分解发现其他模态的表示,以提高对嘈杂和不可靠数据的鲁棒性。 LSSH 使用矩阵分解来学习图像的哈希码。因此,所提出的 LCMFH 方法不同于其他基于矩阵分解的多模态散列方法。

        2.3 哈希函数学习

        训练数据的统一表示V可以直接根据式(3)得到,但不能推广到直接查询。对于样本外实例,我们学习了两个线性哈希函数,它们通过以下方式将图像和文本的特征向量映射到统一表示

         当一个新的查询到来时,其哈希码可以通过对应的投影矩阵Px或Py得到。

        2.4 总体目标函数

        LCMFH的整体目标函数结合了(3)中给出的标签一致矩阵分解项、(5)中给出的哈希函数学习项和正则化项定义为

 4、结论

        在本文中,我们提出了一种用于大规模跨模态相似性搜索的标签一致矩阵分解散列方法。该方法明确地利用异构数据及其语义标签来学习潜在语义空间和统一表示,使具有相同标签的数据点在语义空间中共享相同的表示。因此,统一表示量化的哈希码与语义标签一致,并保持语义相似性。此外,线性散列函数被学习用于样本外扩展。在四个基准数据集上进行的大量实验证明了所提出方法的优越性能。

        在未来的工作中,我们将使用重新排序方法对所提出的多模态哈希方法的检索结果进行重新排序,以从查询中获得更多相关结果。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值