【论文阅读】Self-Supervised Label-Visual Correlation Hashing for Multi-Label Image Retrieval

一只野良猫w

已于 2022-09-06 17:27:12 修改

阅读量722

点赞数

分类专栏： CV学习文章标签：计算机视觉深度学习人工智能

于 2022-09-06 17:18:25 首次发布

本文链接：https://blog.csdn.net/qq_37933128/article/details/126729334

版权

CV学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本文介绍了一种Self-Supervised Label-Visual Correlation Hashing (SS-LVH)方法，用于多标签图像检索。该方法利用CNN生成的特征，通过结构化深度网络嵌入（SDNE）捕获非线性结构，并采用标签相似性转换策略增强图像对的相似性。此外，它结合了BYOL的自监督学习策略和Cauchy分布损失函数进行哈希学习，提高检索效率。

摘要由CSDN通过智能技术生成

Self-Supervised Label-Visual Correlation Hashing for Multi-Label Image Retrieval

1.Preliminary on SS-LVH

与CNN生成的常规特征不同，这些特征由Z1到ZH×W组成，其中每个Zi∈ R1×2048由所有特征图的相同位置的值组成，H和W分别表示特征图的宽度和高度。由于C-Tran中的特征是由像素之间的关系生成的，因此我们在每个Zi上选取top-k（见§5）值来构造Ri，即第i幅图像的高维特征。然后，我们通过Ri和Rj之间的余弦距离形成邻接矩阵MA，用于图嵌入学习。接下来，我们使用深度图嵌入方法，即SDNE[25]，将ui编码到嵌入Ei0中，并获得{Ei0}Ni=1的子集{Ei0}Mi=1，以计算MV，其中{Ei0}Mi=1通过随机抽样获得，但最好是以等于伪标签数量的量，并覆盖目标数据集中的所有类别。MV的每个元素都是通过Ei0和Ej 0之间的余弦距离来计算的。

Structural Deep Network Embedding

结构化深度网络嵌入方法 (SDNE)：该方法用半监督的深度模型来捕捉高度非线性结构，通过结合一阶相似性(监督)和二阶相似性(非监督)来保留局部和全局特征。

是为网络中的节点学习出一个 低维表示的方法。目的在于在低维中保持高度非线性的网络结构特征，

我们提出了一种标签相似性转换策略（2种模式），通过不同的权重融合两幅图像。如图3所示，xi和xj是XD中的图像，而x1i、j和x2i、j是由具有不同权重的xi和xj组成的图像，其中权重是a和1−a、还有a∈（0,1）。我们在图3（a）中描述了点对点像素求和和平均的方法，在图3（b）中描述了拼接方法以及水平和垂直方向。标签相似性转换策略产生了更多具有可信相似性的图像对，缓解了C过大时相似对的稀疏性问题。请注意，由于合成图像不会污染相关矩阵，因此来自目标数据集的共现相关性仍然是决定性的。

2. SS-LVH

图1。SS-L VH的体系结构。（1）在标签共现嵌入学习分支（蓝色框架）中，C表示标签的数量，L1到LC表示对应于伪标签的字向量，E11到EC1表示对应于L1到LC的标签级共现嵌入。（2）在图像表示学习分支（红色框架）中，输入是具有可信或不可信相似性的图像对。Conv5_x是一个生成图像特征的层。E2表示通过具有该特征的全局最大池层计算的图像表示。（3）在视觉相关嵌入学习分支（橙色框架）中，M表示从目标数据集中采样的图像数量，R1到RM表示对应于采样图像的高维特征向量，E13到EM3表示对应于R1到RM的视觉水平相似性嵌入。（4）紫色框表示双OGSP组件。基于重叠组（虚线框）和池，Q1（即语义相似性表示）由每个Ei1（i）进行融合∈ [1，C]∩ 我∈ Z） E2和Q2（即视觉相似性表示）由每个Ej 3（j）融合∈ [1，M]∩ J∈ Z） E2在哪里◦ 表示Hadmard乘积。通过连接Q1和Q2获得标签视觉表示Q。（5）青色框架以BYOL的方式完成Q的自监督学习。增加了Tanh函数以改进哈希的适应性。（6）黄金框架通过Cauchy分布损失函数[29]实现哈希学习，该函数由Cauchy交叉熵损失和Cauchy量化损失组成。

Bootstrap Your Own Latent(发掘自身潜能)

自监督图像表示学习方法(BYOL) ： BYOL依赖于两个神经网络，分别是在线网络和目标网络，它们相互作用并相互学习。

这篇论文的motivation来源于一个有趣的实验，首先有一个网络参数随机初始化且固定的target network，target network的top1准确率只有1.4%，target network输出feature作为另一个叫online network的训练目标，等这个online network训练好之后，online network的top1准确率可以达到18.8%，这就非常有意思了，假如将target network替换为效果更好的网络参数（比如此时的online network），然后再迭代一次，也就是再训练一轮online network，去学习新的target network输出的feature，那效果应该是不断上升的，类似左右脚踩楼梯不断上升一样。BYOL基本上就是这样做的，并且取得了非常好的效果。

一只野良猫w

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Self-Supervised Label-Visual Correlation Hashing for Multi-Label Image Retrieval

（2）在图像表示学习分支（红色框架）中，输入是具有可信或不可信相似性的图像对。（3）在视觉相关嵌入学习分支（橙色框架）中，M表示从目标数据集中采样的图像数量，R1到RM表示对应于采样图像的高维特征向量，E13到EM3表示对应于R1到RM的视觉水平相似性嵌入。接下来，我们使用深度图嵌入方法，即SDNE[25]，将ui编码到嵌入Ei0中，并获得{Ei0}Ni=1的子集{Ei0}Mi=1，以计算MV，其中{Ei0}Mi=1通过随机抽样获得，但最好是以等于伪标签数量的量，并覆盖目标数据集中的所有类别。
复制链接

扫一扫

专栏目录