灵活的多模态哈希用于可伸缩的多媒体检索
Flexible Multi-modal Hashing for Scalable Multimedia Retrieval
引用:24
多模态散列方法通过在离线训练和在线查询阶段结合用于二进制散列学习的多模态特征,可以支持高效的多媒体检索。然而,当只提供一种或部分模式时,现有的多模式方法无法对查询进行二值化。在本文中,我们提出了一种新的灵活的多模态哈希(FMH)方法来解决这个问题。FMH在单个模型内同时学习多模态特定哈希码和多模态协作哈希码。哈希码是根据新出现的查询灵活生成的,这些查询提供模态特征的任意一种或组合。此外,哈希学习过程由成对语义矩阵进行有效监督,以增强识别能力。它可以成功地避免具有挑战性的对称语义矩阵分解和语义矩阵的o(n2)存储开销。最后,我们设计了一种快速离散优化算法,通过简单的操作直接学习哈希码。实验验证了该方法的优越性。
1.背景:
多模态哈希方法通过在离线训练和在线查询阶段结合多模态特征进行二进制哈希学习,可以支持高效的多媒体检索。
2.存在的问题
现有的多模态哈希方法存在三个重要问题:
(1)模态缺失问题。现有的多模态哈希方法在离线训练和在线查询阶段都需要多模态特征作为输入。当查询中只提供一个或一部分模式时,它们就不能很好地工作了。
(2)计算和存储成本高。大多数多模态哈希方法对预先构造的图进行哈希学习,即n×n matrix(即训练样本的数量)来描述数据样本之间的关系。构建此类图的时间成本为O(n2)[16,17]。因此,这些方法会产生很大的计算开销,不能很好地用于大规模多媒体检索。
16.Heterogeneous domain adaptation through progressive alignment(2019)
17.Transfer independently together: A generalized
framework for domain adaptation(2019)
Flexible_Multi_modal_Hashing_for_Scalable_Multimedia_Retrieval
(3)松弛优化或低效的离散优化。哈希学习本质上是一个离散优化问题。然而,现有的多模态哈希方法大多采用“松弛+舍入”两步哈希优化策略,即先放松离散约束,再通过阈值计算二进制码。这种松散哈希优化策略可能会带来显著的量化错误,并导致次优解决方案。注意,现有的离散多模态哈希方法[27,38]主要是在离散循环坐标下降(DCC)[26]上执行。这意味着这些方法必须一点一点地学习哈希码,这在处理大规模数据时仍然很耗时。
27.Multiview discrete hashing for scalable multimedia search.(2018)
38.Semi-supervised multi-view discrete hashing for fast image search.(2017)
26.Supervised discrete hashing. (2015)
3.解决思路和方法
提出一种新的灵活多模态哈希(FMH)方法。它可以同时学习多种模态特定哈希码以保留其内在模态特征,并学习多模态协作哈希码以组合不同的模态并利用它们的互补性。在在线查询阶段,哈希码是根据新出现的查询灵活生成的,用来查询的可以是任意一种或多种模态特性。
此外,二进制哈希码直接通过有监督的语义和有效(计算和存储)离散优化来学习。哈希学习过程在成对语义矩阵的监督下有效地提高了识别能力。该方法有效地避免了对称语义矩阵分解和语义矩阵的(n2)存储开销。最后,设计了一个快速的离散优化,直接用简单的操作学习哈希码
-
提出一种新的灵活的多模态哈希模型,该模型可以同时生成多模态特定的多模态协作哈希码。它可以适应新出现的只提供任何一种或部分方式的查询。
-
开发一个高效的非对称协作监督学习模块,以增强对语义哈希码的识别能力,同时避免了具有挑战性的对称语义矩阵分解和语义图存储成本
-
提出一种离散哈希码优化方法,直接求解二进制哈希码,避免了松弛量化误差。此外,哈希码以快速、操作简单的方式学习,达到高效率(计算和存储)和检索精度。实验结果从多个方面证明了该方法的最佳性能。
RELATED WORK中,作者从单模态,跨模态到多模态的区别分别阐述了思路历程
单模态哈希方法:
Supervised Discrete Hashing (SDH)
Scalable Supervised Discrete Hashing (SSDH)
Deep Supervised Discrete Hashing (DSDH)
单模态哈希方法是专门为单模态数据设计的。为了支持多媒体搜索,需要先将多模态特征连接到一个特征向量中,然后再导入到单模态哈希模型中。在这种情况下,忽略了不同模态特征之间的互补语义关联,涉及了模态间的冗余,从而可能获得次优性能。
#### 跨模态哈希方法:
跨模态哈希的主要目的是发现不同模态之间共享的汉明空间,从而实现不同模态之间的搜索过程。但是是单模态去查询,多模态在查询阶段就提供了多模态特性,所以跨模态方法无法支持多媒体搜索。
多模态哈希方法:
现有的多模态哈希方法大多采用无监督学习来学习哈希码。常用的方法是构造图来描述每个模态的数据样本之间的关系(有的保持局部相似性,有的会优化利用到全局相似性),然后在此基础上进行哈希学习。一般存在的问题就是精度受限。
Multiview alignment hashing for efficient image search.(2015.)
#提出了一个多图正则化非负矩阵分解框架,其中哈希码通过揭示隐藏的语义和捕获数据的联合概率分布来学习
Multiview discrete hashing forscalable multimedia search(2018)
#通过谱聚类来学习伪类标签,并利用伪类标签生成判别哈希码
有监督
Discrete multi-view hashing for effective imageretrieval(2018)
#离散多视图哈希(DMVH)是一种离散监督多模态哈希方法。它基于局部线性嵌入(local Linear Embedding, LLE)构造相似图[9,25],既能保持局部相似结构,又能保持数据对之间的语义相似。
方法具体
1.notation
方法旨在学习多模态特定哈希码BM∈{−1,1}r×n 和 多模态联合哈希码[B1;…;BM]∈{−1,1}M×r×n。(具体notation看论文)
另外规定 同一样本的不同模态属于同一类别。S∈{−1,1}nxn是一个成对语义矩阵,其中第i行第j列的元素定义为
FMH的基本框架如图:
在离线训练过程中,FMH首先对图像模态的CNN特征和文本模态的BoW特征进行非线性映射,得到各模态的非线性嵌入。然后,用二进制投影生成相应的模态特定哈希码。其次,对具有成对语义监督的多模态协作哈希码进行非对称协作监督学习。FMH直接优化离散哈希码,提高线性计算和存储效率。在在线哈希过程中,给定一个新的多模式查询样本,对多个特征进行非线性映射后,生成针对不同检索任务的特定模式哈希码和多模式协同哈希码。
2.Nonlinear Projective Binary Mapping
投影二进制多模态哈希码应全面保留多模态特征信息。大多数现有的多模态方法[14,22,30,40]构建图来完成这一任务。图的构建过程耗费了O (n2)的计算和存储复杂度,这在大规模多媒体检索中实际上是不可接受的。
式(1)的思想是,将甄别特征赋予较大的权值,使相应的正则化损失最小化,从而达到更好的投影效果。
3.Asymmetric Collaborative (非对称协作)Supervised Learning
不像现有的其他方法那样学习多模态融合的哈希码,而是将特定模态的哈希码B1到BM连接成多模态数据的协作表示[B1;…;BM]。
该策略不仅有效地利用了多模态数据的互补性,而且还避免了破坏特定模态散列代码的结构。因此,它可以支持灵活的查询散列生成。
开发了一个非对称监督学习模块,它将语义从成对语义矩阵转移到哈希码,同时避免了这些问题。具体来说,在哈希学习过程中,我们将[B1;…;BM]中的一个替换为辅助变量led∈R(M×r)×nand,以保持它们的一致性。
该公式明显避免了对称矩阵分解。分解后的变量中只有一个具有离散约束。第二正则化项可以保证可接受的信息损失。,在非对称哈希学习的支持下,哈希码可以通过一个简单的sgn(·)操作来学习,而不是像现有的离散多模态哈希方法那样通过位-位离散优化来学习。此外,当用标签矩阵表示s时,也可以降低由s带来的O(n2)存储成本。
4. Overall Objective Formulation
把上面的加起来
其中β,δ,γ为平衡参数。前两项使用非线性射影二元映射进行多模态特定哈希学习,而后两项执行非对称监督多模态哈希学习。
5.Efficient Discrete Hash Optimization
Fast Discrete Collaborative Multi-Modal Hashingfor Large-Scale Multimedia Retrieval(2020)
…