零样本哈希图像检索-近年来的小众研究方向-文献总结整理

题主记:翻了一些帖子很少有零样本、哈希和纯图像检索相关的文献总结,近年来学者们更多是将目光放在大模型、跨模态检索等热门方向。因本人性格偏好总结整理,所以想通过论文归纳总结的方式梳理一遍零样本哈希图像检索的历年研究,锻炼自己的归纳总结能力,吸收大佬们的灵感,膜拜此领域的大牛们,同时也为这个偏小众的方向尽自己的一份力。

本文提及论文来自dblp的检索结果(后面会慢慢把漏找的论文补上哒,也欢迎伙伴们评论区给我指路)

目录

目录

2022

(B类期刊-TNNLS)Transductive Zero-Shot Hashing for Multilabel Image Retrieval 直推式零样本哈希for多标签图像检索——2019年v1版本,2022年v2最新版

2020

Marginalized Graph Attention Hashing for Zero-Shot Image Retrieval 边缘化图注意哈希for零样本图像检索

(2020B类会议-ICASSP)SEMANTIC AUGMENTATION HASHING FOR ZERO-SHOT IMAGE RETRIEVAL

2019

(C类期刊-PRL)Zero-shot Hashing with orthogonal projection for image retrieval采用正交投影的零样本哈希技术for图像检索

2017

(B类会议-ICME)Attribute hashing for zero-shot image retrieval属性哈希for零样本图像检索



2022

(B类期刊-TNNLS)Transductive Zero-Shot Hashing for Multilabel Image Retrieval 直推式零样本哈希for多标签图像检索——2019年v1版本,2022年v2最新版

作者信息:Qin Zou , Ling Cao , Zheng Zhang(武汉大学计算机科学院), Long Chen (中山大学数学与计算机科学学院)Song Wang(美国南卡罗来纳大学USC+天津大学)

Transductive learning 直推式学习:

摘要:哈希编码在大规模图像检索的近似最近邻搜索中得到了广泛的应用。给定语义注释,如训练集的类标签和成对相似性,哈希方法可以学习和生成有效和紧凑的二进制代码。虽然一些新引入的图像可能包含未定义的语义标签,我们成为不可见类图像,但零样本哈希ZSH技术已经被用于检索。然而现有的ZSH方法主要集中于单标签的图像检索,不能处理多标签图像。本文首次提出一种新的用于多标签不可见类图像检索的直推式ZSH方法。为了预测不可见类unseen/目标域target数据,通过对可见类/源域数据 进行instance-concept实例-概念一致性排序,建立了一个visual-semantic bridge。然后利用可见类/源域和不可见类/目标域数据,构造成对相似度损失焦点量化损失来训练哈希模型。对三种流行的多标签数据集NUS-WIDE、VOC2012、COCO的广泛评估ACGs、NDCGs、MAP、WAP表明,所提出的哈希方法取得了优异的效果。

贡献:

1)提出了T-MLZSH来解决多标签图像检索中的域偏移domain-shift问题,这是首次提出ZSH进行多标签图像检索的工作
2)提出了一种用于视觉-语义映射的实例-概念一致性排序算法,该算法可用于预测不可见类的目标数据的标签,从而提高零样本深度哈希的性能
3)在三种多标签数据集上取得了有前景的结果,构建了零样本多标签图像检索的基准,为该领域新研究铺路

问题定义

Q1:怎样直推式?

在学习过程中,源数据和目标数据都被用于训练哈希模型。学习系统不知道目标数据的类别标签。

Q2:怎样构建实例-概念一致性排序?

由于目标图像没有标签信息,我们应该首先预测这些图像的标签,将知识从语义表示转移到视觉特征进行预测,然后再学习监督哈希函数。如果vi是第Ii个图像实例的视觉嵌入uj是第j个语义概念的语义嵌入,那么我们可以计算出嵌入空间中Ii与第j个语义概念之间的相关性得分

o ij = < v i , u j> (1)
where <a,b>=aTb is the inner product operation.
在训练过程中,我们可以得到一个源标签的 得分列表{oi1,oi2,...,oi Ls },其中Ls是所看到的标签的数量。我们的嵌入模型的目标是学习一个映射函数,即使用相关标签的得分应该高于使用不相关标签的映射函数,如图3所示。受[78]的启发,我们采用RankNet损失函数来学习排名关系,例如Ii
在公式(2)中,第一项对与图像Ii无关的标签的排名顺序 高于相关标签的情况进行惩罚,第二项用于扩大相关对的亲缘得分,减少不相关对的亲缘得分。
基于以上实例-概念一致性模型,可以得出目标图像的视觉嵌入和目标类的语义嵌入的两两相关性得分。我们将分数{oi1,oi2,...,oi Lt}(Lt是未看到的标签的数量)按降序排列,并选择 前k分最高的类别作为预测的目标标签

Q3:怎样构造成对相似度损失和焦点量化损失?(哈希码的学习)

为了进行有效的最近邻搜索,需要在汉明空间中保持原始图像的语义相似性。通常,相似度关系可以用图像标签来定义。对于一个多标签数据集,如果两个图像共享至少一个标签,则认为它们是相似的和不相似的。如果B是所有图像的一组哈希码,而S = {si j}是成对的相似度矩阵,则si j的条件概率可以定义为

我们采用负对数似然法作为代价函数来度量两两相似性损失,公式如下:

直接处理这个离散优化问题太难了,因为bi∈{-1,+1}M 需要对网络输出阈值化,这可能会导致反向传播中的梯度消失。我们采用连续松弛策略来解决这个问题,深度哈希层ui的输出被输入到一个tanh函数hi=tanh(ui),因此Ωij is redefined as hiThj

为了更有效更快的学习哈希码,我们设计了一个焦点量化损失来减轻离散二进制码和连续输出之间的分歧。由于大量简单样本的梯度累积对训练没有帮助,焦点损失试图减少简单样本的权重,以促进训练过程。

首先将二进制码量化问题转化为二值分类问题,使用一个sigmod激活函数将哈希层的输出映射到一个概率分布pi^=σ (ui)tanh和sigmod都是单调递增函数,所以当hi逐渐接近-1时,pi也接近于0,反之依然(都接近1)、因此二值分类的概率可以有效地反应哈希码的紧凑型。

总损失函数:

实验结果:


2020

Marginalized Graph Attention Hashing for Zero-Shot Image Retrieval 边缘化图注意哈希for零样本图像检索

作者信息:Meixue Huang; Dayan Wu ;Wanqian Zhang;Zhi Xiong;Bo Li;Weiping Wang中国科学院

摘要:零样本图像检索允许精确地检索与未观察到的查询相关的候选对象,这些类别在训练中从未出现过。近年来由于哈希方法的存储和计算效率,所以本文探索哈希方法来解决这一问题。然而现有的方法只关注利用语义信息,忽略了利用视觉特征空间的相似性结构来进行知识迁移。此外,可见类和不可见类之间的域偏移问题进一步降低了性能。为了解决这些问题,本文提出了一种新的深度零样本哈希方法,即边缘化图注意哈希(MGAH)。MGAH引入了掩码注意机制masked attention来构造一个联合语义相似度图,它从不同度量空间捕获内在关系,使其能够将知识从可见类迁移到不可见类。此外,我们还设计了一个能量放大的softmax损失(Energy Magnified Softmax,EM-Softmax),它能够缓解域偏移问题,促进哈希码的泛化能力。EM-Softmax通过使用边缘化策略,对hard samples产生共享的决策边际,从而避免对可见类进行过拟合,同时对不可见类覆盖更多的知识。大量的实验表明,MGAH比当前SOTA更加优越。

PS:这篇文章在相关工作中也有关于inductive zero-shot hashing和transductive zero-shot hashing的介绍,但作者意识到不论是诱导性学习还是直推式零样本哈希学习,他们都只关注了语义信息,对视觉特征空间的内在结构还没有充分利用。这些方法忽视了可见类和不可见类不同的数据分布情况,导致了域偏移问题,阻碍了哈希学习的泛化能力。

问题定义:

本文使用预先训练好的AlexNet作为特征提取器,得到图像表示x,然后用带有符号化函数sign(·)的哈希层生成kbits二进制代码b:

上述公式的离散约束导致了优化的困难,所以根据[1,24]的建议,采用了tanh(·)来解决这个问题,公式更新如下:

Q1:怎样构建联合语义相似度图,从而发掘视觉特征空间的相似性?

首先基于类语义预先计算一个固定相似度图,从语义嵌入空间的角度保留了原始的邻域关系。给定一对语义zi和zj,用余弦相似度来度量他们之间的关系:

根据Sf所确定的拓扑结构,利用掩码注意机制生成一个由图像视觉特征直接驱动的自适应相似度图。换句话说,对于图像xi,我们只计算其对图像j∈Ni的注意分数,其中Ni是上图Sf中图像xi的一阶邻域。为了获得详细的信息,利用一个相同的全连通层来学习潜在变量h:

根据[26]建议,我们计算注意分数并将其归一化,得到自适应相似度图Sa

||是串联操作,Wa是网络参数,注意力得分Sa(i,j)表示图像xj对xi的重要性。最后我们将Sf和Sa结合起来,得到联合语义相似度图S:

这个图S比之前只考虑类语义的方法提供更精确的语义信息。

将语义关系集成到哈希码中:

为了生成语义相关的哈希码,将联合语义相似度图S和原始哈希码B渲染成图的卷积层,定义为:

Wg是线性变换参数,用tanh限制输出在[-1,1]之间。另外还引进了一种快捷连接架构,将原始的哈希码B直接连接到隐藏码B’,如下:

Q2:能量放大的softmax损失是怎样缓解域偏移,扩大泛化力的?

Wj表示第j类的权重,*是乘法,β是放大预测并鼓励泛化性的能量因子。β值会在训练过程中逐渐增加,从而鼓励辨别能力和泛化能力。

EM-softmax损失的几何解释——左边的边界感明显,对于class1、2会存在可见类的过拟合。右边的EM-softmax损失产生了一个松弛分类标准,它对hard samples 是松散的,从而避免了可见类过拟合。直观的说,左边是WjTbi~>WkTbi~ 去正确分类xi;右边是β*WjTbi~>WkTbi~,随着训练β会不断增加,提高了泛化能力。

另外它还产生了一个共享的决策边际,如右图中第1类的决策边界可以计算为(βW1-W2)bi~=0,第2类决策边界计算为(βW2-W1)bi~=0。EM-softmax损失使得第1类和第2类的决策边界不同,而传统的决策边界相同,也就是说扩宽了每一类的可行区域,期望包含不可见类的潜在空间。

实验结果:

DOPH(正交投影约束)是当前零样本哈希的SOTA,DOPH采用的是GoogleNet提取的特征,MGAH与DOPH进行对比:

DOPH是依赖正交投影约束来生成哈希码,而本文的MGAH显式地利用语义相似性来促进迁移能力,可以更好的推广到不可见类。

消融实验(看MAP结果)

MGAH1:去除EM-softmax loss,改用传统的softmax损耗;
MGAH2:去除固定相似度图Sf;
MGAH3:去除自适应相似度图Sa;
MGAH4:对哈希码B和相似度图S进行加权平均,而不是使用图的卷积层;
MGAH5:删除了快捷方式连接体系结构;

发现EM-softmax损失提高了3.34%,图卷积层合并语义关系比加权平均更有效,快捷连接可以进一步提高性能。

探究联合相似度图的影响(看Sf、Sa、S)

和Sf相比 S是不对称的,它允许对相同的图像对 分配不同的重要性;与Sa相比 S更平滑,作者说这可能是使模型泛化能力飞跃。

(2020B类会议-ICASSP)SEMANTIC AUGMENTATION HASHING FOR ZERO-SHOT IMAGE RETRIEVAL

作者信息Fangming Zhong1,, Zhikui Chen1 , Geyong Min2 , Feng Xia1 大连理工大学

摘要:哈希技术由于其在存储和检索方面的有效性,已广泛应用于大规模图像检索。然而由于多媒体数据在网络上的爆炸式增长,现有的哈希方法很难在新出现的新的类别图像上取得令人满意的性能。本文提出了一种新的语义增强哈希(Semantic Augmentation Hashing,SAH)的零样本图像检索。类语义嵌入被用于视觉特征和二进制哈希码之间的中间空间,以使视觉特征对准相应的类语义,同时将知识从可见类转移到不可见类。在两个不同尺度的数据集上进行的大量实验表明,我们的方法于目前最先进的方法相比取得了SOTA效果。


可以看出,视觉特征首先通过漂移投影到类语义嵌入上,以提高判别能力。然后学习了一个从语义嵌入到哈希码的映射。为了进一步提高哈希码的判别能力,我们将流形结构保留和监督标签回归相结合,在不需要任何松弛的情况下离散学习二进制码。这样学习到的哈希函数具有足够的鉴别能力,并可以很好地推广到新的类别。

贡献:
1)提出一种语义增强哈希方法,利用类语义嵌入作为视觉特征和哈希码之间的中间空间,来解决ZSIR问题
2)提出通过带有漂移的线性投影 将视觉特征回归到语义嵌入。这样可以很好的将视觉特征和相应的类语义嵌入对齐,从而实现从可见类到不可见类的知识迁移
3)集成了流形结构保留和监督标签回归,进一步提高了二进制码的分辨能力,并提出了一种离散学习二进制码的优化算法

问题定义:

通常使用被称为S∈Ra×n的类语义嵌入作为传递知识的中间空间,其中a是属性的数量,每列Si对应于图像xi。考虑到现有的方法忽略了视觉特征的语义对齐,本文提出增强语义信息去进一步弥合低层次视觉特征和高层次人类认知之间的语义差距。

Q1:怎样将视觉特征映射漂移到类语义空间中?也就是说怎样实现语义对齐?

与大多现有的仅使用简单的线性变换将视觉特征映射到语义空间的方法不同,我们建议通过最小化具有漂移的线性变换来表示语义对齐,如下:

Q2:流形结构和监督标签回归是怎样参与离散二进制码的学习和优化?

流形结构保留——在语义嵌入空间上保留原始数据中的流形结构,如下:

L是拉普拉斯矩阵,L=D-W,D是Rnxn的对角矩阵,W是训练样本的相似度矩阵

本文基于每个实例的加权表示计算相似度矩阵W,并通过求解局部线性嵌入LLE[19]得到相似矩阵W。换句话说,一个样本与其他样本的相似性 被设置为通过LLE计算的权重。在这里进一步设置W=W+WT,以确保对称性。

哈希码学习——需要学习从语义嵌入到二进制码B之间的线性投影R∈Raxk(第一项)。为了进一步提高哈希码的分辨能力,将标签矩阵与哈希码反回归(第二项):

G∈Rcxk将标签信息线性回归为哈希码。

整体目标:

这个目标可以被另一种优化方式解决——引入核函数,将X原始的视觉特征替换为核特征,本文采用RBF核映射φ (x):

ai是从训练集中随机选择的锚点,D(·)是x到锚点的距离

对不可见类图像求哈希码,公式如下:

实验结果


2019

(C类期刊-PRL)Zero-shot Hashing with orthogonal projection for image retrieval采用正交投影的零样本哈希技术for图像检索

作者信息:Haofeng Zhanga南京科技大学 , Yang Long b , Ling Shaoc,d,*

摘要:(balabala省略背景)现有哈希方法不能很好的处理新类的新兴图像,本文提出了一种基于图像和语义属性正交投影的哈希方法,该方法约束生成的二进制码在正交空间中属于不同类时进行正交,否则是相同的。这一约束保证了从不同类别生成的哈希码具有相等的汉明距离,也使得空间在有限的代码长度内更具鉴别性。为了提高性能,我们还用一个深度模型扩展了我们的方法。在三个流行的数据集上的线性和深度模型的实验证明我们的方法有优异的效果,深度模型优于当前SOTA

贡献
1)提出基于正交投影的零样本哈希方法,通过转移可见类的语义概念,为不可见类生成有效的哈希码
2)构建了零样本哈希框架,该框架以图像和语义属性作为输入,生成相应的二进制码,当它们属于同一类别时,必须彼此正交,否则必须相同。该约束迫使生成的不同类的二进制码具有相等的汉明距离,从而保证在有限的哈希码长度内具有更多的区分空间。
3)用一个深度模型扩展了我们的方法,它利用深度学习的强大的非线性拟合能力,取得了较大提升。

上部是哈希函数F(X;W),从图像生成哈希码,底部是映射函数G(A;W),从类名计算哈希码。当输入图像和输入类名属于同一个类时,生成的哈希码应该彼此相同,否则它们应该相互正交。因此生成的哈希码的内积应该是对于相同的类别,对于不同的类别应该是0.在上部的哈希函数F中使用预训练的GoogleNet从输入图像中提取特征,在底部的映射函数G中使用Word2Vec从类名中生成类属性attribute。

问题定义

给定图像特征矩阵X和属性矩阵A,哈希函数F(X)=XW1的输出为B1,映射函数G(A)=AW2的输出为B2,那么线性损失函数可以设计为:

B1=B2为了保证生成的哈希码的特征和属性都是相同的约束条件;第三项表示根据图像和属性分别生成的哈希码应该是相同的,否则就应该是正交的,S是一个相似度矩阵,sij=1表示xi和aj来自同一类别,否则sij=0
为了解决依赖关系B1=B2,利用拉格朗日乘子重写此公式:

线性最优化:依次更新B2、B1、W1、W2(其中用到了sylvester方程,详见论文)

深度正交投影网络
哈希网络F:
映射网络G:

损失函数设计为:
K是训练样本的数量,Pk是bi和bj的内积,sk∈{0,1}是xi和aj的相似性

实验结果


2017

(B类会议-ICME)Attribute hashing for zero-shot image retrieval属性哈希for零样本图像检索

作者信息Yahui Xu, Yang Yang∗, Fumin Shen, Xing Xu, Yuxuan Zhou, Heng Tao Shen中国电子科技大学未来媒体中心和计算机科学与工程学院

摘要:大多数现有方法都会碰到语义差距的问题,本文提出属性哈希AH方法,促进对不可见类的图像查询。提出了一个多层的哈希层次结构,可以充分利用属性来建模图像特征、二进制哈希码和标签之间的关系。此外还最大程度的保留了哈希码的离散性和局部结构。在几个真实世界的图像数据集上进行了广泛实验,表明AH方法是当前SOTA。

贡献
1)提出属性哈希方法AH,目的是同时缩小二进制码和标签之间的语义差距
2)开发了多层哈希层次结构来建模视觉特征、二进制码、属性和标签之间的关系。属性作为中间层,语义信息可以从顶层(即标签)平稳的传递到底层(即二进制码和视觉特征),以类别间的方式共享
3)为了保证二进制码和哈希函数的质量,提出在数据之间保持离散的性质和内在的局部结构信息。离散优化策略可以避免传统连续优化方法中由于松弛引起的累积误差

问题定义:X=[x1,x2,...,xn]∈Rdxn,

B哈希码,P从图像特征x到哈希码b的映射矩阵,V从哈希码到属性的权重矩阵,S属性和类别之间的映射矩阵。

本文保留了哈希码的离散型,期望相似的图像应该共享相似的哈希码:

公式(3)还可以重写为Tr(PTXLXTP),其中L是X的拉普拉斯矩阵,Tr是一个矩阵的秩

整体目标
优化:(这样看比前面那几篇简单多了)

实验结果

  • 14
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
哈希图像检索是一种用于在大规模图像数据库中快速搜索相似图像的方法。在哈希图像检索中,图像被转换为哈希码,然后通过比较哈希码的相似性来确定图像之间的相似度。有几种常用的哈希算法可以用于图像检索,如SIFT、SURF、ORB等特征提取算法\[1\]。此外,还有一些基于哈希图像检索方法,如VLAD、BOF等,可以用于处理海量数据的图像检索\[1\]。 在哈希图像检索中,可以使用不同的方法来计算图像之间的相似度。一种常用的方法是通过比较图像的颜色、纹理和局部特征来计算相似度\[2\]。另外,还可以使用KD-Tree、局部敏感哈希(LSH)和原子哈希函数等方法来在高维空间中进行图像检索\[2\]。 此外,还有一种基于监督学习和核的Hash算法,称为KSH算法。KSH算法利用核主要是为了解决线性不可分问题,通过监督学习来学习到更有区分度的哈希值,从而降低特征维数\[3\]。 总之,哈希图像检索是一种用于在大规模图像数据库中快速搜索相似图像的方法,它可以通过提取图像特征和计算相似度来实现。不同的哈希算法和方法可以用于不同的图像检索任务。 #### 引用[.reference_title] - *1* *3* [图像检索传统算法学习笔记](https://blog.csdn.net/qq_39858278/article/details/83895342)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [8月23日计算机视觉理论学习笔记——图像检索](https://blog.csdn.net/Ashen_0nee/article/details/126467437)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

纸梯先生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值