【论文阅读】Self-Supervised Label-Visual Correlation Hashing for Multi-Label Image Retrieval

本文介绍了一种Self-Supervised Label-Visual Correlation Hashing (SS-LVH)方法,用于多标签图像检索。该方法利用CNN生成的特征,通过结构化深度网络嵌入(SDNE)捕获非线性结构,并采用标签相似性转换策略增强图像对的相似性。此外,它结合了BYOL的自监督学习策略和Cauchy分布损失函数进行哈希学习,提高检索效率。
摘要由CSDN通过智能技术生成
Self-Supervised Label-Visual Correlation Hashing  for Multi-Label Image Retrieval

1.Preliminary on SS-LVH
与CNN生成的常规特征不同,这些特征由Z1到ZH×W组成,其中每个Zi∈ R1×2048由所有特征图的相同位置的值组成,H和W分别表示特征图的宽度和高度。由于C-Tran中的特征是由像素之间的关系生成的,因此我们在每个Zi上选取top-k(见§5)值来构造Ri,即第i幅图像的高维特征。然后,我们通过Ri和Rj之间的余弦距离形成邻接矩阵MA,用于图嵌入学习。接下来,我们使用深度图嵌入方法,即SDNE[25],将ui编码到嵌入Ei0中,并获得{Ei0}Ni=1的子集{Ei0}Mi=1,以计算MV,其中{Ei0}Mi=1通过随机抽样获得,但最好是以等于伪标签数量的量,并覆盖目标数据集中的所有类别。MV的每个元素都是通过Ei0和Ej 0之间的余弦距离来计算的。

Structural Deep Network Embedding

结构化深度网络嵌入方法 (SDNE):该方法用半监督的深度模型来捕捉高度非线性结构,通过结合一阶相似性(监督)和二阶相似性(非监督)来保留局部和全局特征。
是为网络中的 节点学习出一个 低维表示的方法。目的在于在低维中保持高度非线性的网络结构特征,
我们提出了一种标签相似性转换策略(2种模式),通过不同的权重融合两幅图像。如图3所示,xi和xj是XD中的图像,而x1i、j和x2i、j是由具有不同权重的xi和xj组成的图像,其中权重是a和1−a、 还有a∈(0,1)。我们在图3(a)中描述了点对点像素求和和平均的方法,在图3(b)中描述了拼接方法以及水平和垂直方向。标签相似性转换策略产生了更多具有可信相似性的图像对,缓解了C过大时相似对的稀疏性问题。请注意,由于合成图像不会污染相关矩阵,因此来自目标数据集的共现相关性仍然是决定性的。

2. SS-LVH
图1。SS-L VH的体系结构。(1) 在标签共现嵌入学习分支(蓝色框架)中,C表示标签的数量,L1到LC表示对应于伪标签的字向量,E11到EC1表示对应于L1到LC的标签级共现嵌入。(2) 在图像表示学习分支(红色框架)中,输入是具有可信或不可信相似性的图像对。Conv5_x是一个生成图像特征的层。E2表示通过具有该特征的全局最大池层计算的图像表示。(3) 在视觉相关嵌入学习分支(橙色框架)中,M表示从目标数据集中采样的图像数量,R1到RM表示对应于采样图像的高维特征向量,E13到EM3表示对应于R1到RM的视觉水平相似性嵌入。(4) 紫色框表示双OGSP组件。基于重叠组(虚线框)和池,Q1(即语义相似性表示)由每个Ei1(i)进行融合∈ [1,C]∩ 我∈ Z) E2和Q2(即视觉相似性表示)由每个Ej 3(j)融合∈ [1,M]∩ J∈ Z) E2在哪里◦ 表示Hadmard乘积。通过连接Q1和Q2获得标签视觉表示Q。(5) 青色框架以BYOL的方式完成Q的自监督学习。增加了Tanh函数以改进哈希的适应性。(6) 黄金框架通过Cauchy分布损失函数[29]实现哈希学习,该函数由Cauchy交叉熵损失和Cauchy量化损失组成。
Bootstrap Your Own Latent(发掘自身潜能)
自监督图像表示学习方法(BYOL) BYOL依赖于两个神经网络 ,分别是在线网络和目标网络,它们相互作用并相互学习。
这篇论文的motivation来源于一个有趣的实验,首先有一个网络参数随机初始化且固定的target network,target network的top1准确率只有1.4%,target network输出feature作为另一个叫online network的训练目标,等这个online network训练好之后,online network的top1准确率可以达到18.8%,这就非常有意思了,假如将target network替换为效果更好的网络参数(比如此时的online network),然后再迭代一次,也就是再训练一轮online network,去学习新的target network输出的feature,那效果应该是不断上升的,类似左右脚踩楼梯不断上升一样。BYOL基本上就是这样做的,并且取得了非常好的效果。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值