Transductive Zero-Shot Hashing For MultilabelImage Retrieval

h3214463785

于 2023-10-10 10:19:05 发布

阅读量114

点赞数

文章标签：哈希算法

本文链接：https://blog.csdn.net/h3214463785/article/details/133712479

版权

hyw4521/zeroshot (github.com)pdf

需要跑的

本篇文章的研究背景是多标签图像检索中的零样本学习问题。传统的多标签图像检索方法通常需要大量标记数据来训练模型，但在实际应用中，很难获得包含所有标签的标记数据。因此，零样本学习成为解决这一问题的关键。零样本学习旨在通过学习从已知标签到未知标签的映射关系，实现对未知标签的图像进行准确检索。本文提出了一种基于转导学习的零样本哈希方法，通过将已知标签的图像和未知标签的图像进行转导，实现了对未知标签的图像进行准确的哈希编码和检索。

本研究的研究思路是提出了一种基于零样本学习的多标签图像检索方法。在传统的多标签图像检索中，通常需要大量的标注数据来训练模型，但这限制了模型在未见过的类别上的泛化能力。为了解决这个问题，本研究采用了零样本学习的思想，通过将已有的标注数据和未见过的类别的语义信息进行关联，实现了在未见过的类别上进行图像检索的能力。具体而言，本研究提出了一种基于深度哈希的框架，将图像转化为紧凑的二进制哈希码，以实现高效的图像检索。该框架包括两个关键的组成部分：对比损失和聚焦量化损失。对比损失用于学习图像之间的相似性，使得相似的图像在哈希空间中具有相似的哈希码。聚焦量化损失用于将多标签图像检索问题转化为二分类问题，并通过概率分布来反映哈希码的紧凑性。通过结合这两个损失函数，可以得到一个综合的哈希损失函数。为了验证该方法的性能，本研究在三个常用的多标签图像数据集上进行了实验。实验结果表明，与其他基线方法相比，本研究的方法在未见过的类别上具有更好的检索性能。此外，本研究还对不同的卷积神经网络进行了比较，结果表明，使用更强大的网络模型可以进一步提高检索性能。综上所述，本研究通过引入零样本学习的思想，提出了一种基于深度哈希的多标签图像检索方法，有效地解决了传统方法在未见过的类别上的泛化能力不足的问题。

ZSL的核心是获取不可见数据的实例标签。根据实例的获取方式，可将实例库分为三类[38]-[40]：基于投影的方法[41]-[43]，实例借用方法[44]- [46]和合成方法[47]-[50]。

图2给出了所提出的方法的流程图。输入图像首先通过具有堆叠的卷积层和全连接层的深度网络，并被编码为高维特征表示。然后，将最后一个全连接层的输出馈送到散列层中以进行紧凑二进制编码。为了将知识从可见的类别转移到不可见的类别，并在视觉和语义模态之间构建桥梁，我们在哈希层之后添加了一个全连接层，该层将特征从汉明空间映射到公共嵌入空间。

为了构建零触发场景，我们应该进一步分割dataset 1。由于这些多标签数据集之间存在更复杂的语义关系，因此我们使用这三个图像数据集中的一个作为源数据，另一个作为目标数据。例如，我们可以将NUS-WIDE设置为源数据，将VOC 2012设置为目标数据，反之亦然。在基于这些数据集训练模型之前，必须进行数据预处理。我们设置了三个实验，包括NUS-WIDE和VOC 2012之间的实验，NUS-WIDE和COCO之间的实验，以及COCO和VOC 2012之间的实验。1)NUS-WIDE和VOC 2012之间的实验：在NUS-WIDE中，我们删除了这两个数据集和相关图像共享的公共概念（语义标签），因为NUS-WIDE中的图像比VOC 2012中的图像多得多。在VOC 2012中，我们删除了一些模糊的概念和相关图像。这样的数据清理操作导致NUS-WIDE的子集包含106，389个图像和18个标签，VOC 2012的子集包含16，750个图像和17个标签。对于NUS-WIDE，我们随机选择10，000张图像作为训练集，2，000张图像作为测试查询集，其余作为检索数据库。对于VOC 2012，我们随机选择4,000张图像作为训练集，1,000张图像作为测试查询集，其余作为检索数据库。2)NUS-WIDE和COCO之间的实验：我们去除了NUSWIDE中常见的概念和相关图像，保持COCO不变。最后，准备包含100，303个图像和17个标记的NUS-WIDE的子集以及包含123，274个图像和80个标记的COCO的子集用于以下实验。对于这两个数据集，我们随机选择10，000张图像作为训练集，2，000张图像作为测试查询集，其余的作为检索数据库。3)VOC 2012与COCO之间的实验：我们移除与NUS-WIDE和COCO之间的三个模糊co2）实验相关的图像：我们去除了NUSWIDE中常见的概念和相关图像，保持COCO不变。最后，准备包含100，303个图像和17个标记的NUS-WIDE的子集以及包含123，274个图像和80个标记的COCO的子集用于以下实验。对于这两个数据集，我们随机选择10，000张图像作为训练集，2，000张图像作为测试查询集，其余的作为检索数据库。3)VOC 2012与COCO之间的实验：我们删除了VOC 2012中与三个模糊概念相关的图像。之后，VOC 2012的所有概念都包含在COCO中。然后，对于COCO，我们删除了VOC 2012中包含概念的图像。最后，COCO还有21，987张图片和60个标签，VOC 2012还有16，750张图片和17个标签。对于这两个数据集，我们随机选择4,000张图像进行训练，1,000张图像作为测试查询，其余的作为检索数据库。对于NUS-WIDE，VOC 2012和COCO，我们检查标签并确保训练/查询集包含相应数据集的所有概念。我们使用TensorFlow工具包实现了所提出的方法（T-MLZSH）。在本文中，我们使用AlexNet作为CNN的骨干。为了验证所提出的框架的多功能性，我们还将通过用VGG 16和ResNet 50替换骨干CNN进行评估。我们使用预训练的模型来初始化权重参数，并专注于训练哈希层和嵌入层。采用Adam方法进行随机优化，小批量为128，所有输入图像的大小为227×227。我们将我们的方法（T-MLSH）与其他九种方法进行了比较，包括传统方法KSH [2]，IMH [3]，SDH [4]，ZSH-DA [32]和TSHH [30]，以及基于深度学习的方法DHN [24]，Hashnet [26]，ADSH [83]和TSHH [33]。在传统的散列算法中，ZSH-DA和ZSH是两种零次散列算法。在基于深度学习的方法中，TSAH是一种转换性零击哈希（ACG），归一化贴现累积增益（NDCG），平均平均精度（MAP）和加权平均精度（WAP）[7]，[23]，[85]，[86]。MAP是每个查询的平均精度的平均值，可以通过以下公式计算：

作者可能使用"COCO → VOC"来表示将COCO数据集作为源数据，VOC数据集作为目标数据的实验设置。这意味着他们将尝试从COCO数据集学习哈希函数，并在VOC数据集上进行零样本图像检索或相关任务的测试和评估。这是为了研究跨数据集的零样本图像检索问题。

1)数据集类别的影响：在上述两组实验中，部分实验使用NUS-WIDE作为不可见数据集，结果见表I和表II。从表的左侧，我们注意到使用COCO作为所见数据集可以实现更好的MAP结果，其在具有不同散列位的平均MAP中分别具有约2.6%、2.9%、3.6%和4.9%的改进。这两组实验具有相同的目标域，唯一的区别是源域。我们猜测，导致不同地图的可能原因是类别的差异。COCO数据集划分得更细，可以使用更多的语义信息，这使得网络更加强大。2)数据集大小的影响：此外，我们探索的源和目标数据集的大小的影响，通过使用不同数量的“看到”和“看不见”的图像来训练模型。考虑了三个数量级。确切地说，来自源数据集和目标数据集的图像的数量分别为10，000和10，000，10，000和4，000，4，000和10，000。结果示于图12.可以看出，不同数量级的使用略有差异，但整体上表现稳定。实验结果表明，即使两个域的训练图像个数不同，该模型也具有一定的稳定性。3)量化损耗的必要性：我们还探讨了建议的量化损失的有效性。我们将所提出的方法与其变体版本进行比较：一种采用了广泛使用的绝对误差损失，直接测量连续输出与离散码之间的欧氏距离，另一种则不使用量化损失。结果如图所示。13.可以看出，在没有量化损失的情况下，存在性能的快速退化。MAP的评估指标的差异约为0.5%，这说明了在深度哈希学习中使用量化损失的重要性。我们还可以看到，应用量化损失大大改善了结果，所提出的焦点量化损失在所有提出的架构中具有更先进的性能。4)视觉-语义桥梁的有效性：（首先回答是如何将图像和标签建立关联的：

他是通过神经网络将图片特征向量提取出来，语义也是通过embedding模型来提取特征向量，让后再通过度量，距离度量，像是欧氏距离余弦相似度等等，相似度度量像是皮尔孙相关系数spearman相关系数本文还通过一个概率模型，就是将预测出来的标签所看到的图像与真实的比较的模型

建立视觉语义桥来预测看不见的数据的标签。它通过将知识从语义表示转化为视觉特征，使属于同一类别的图像具有更高的相似性。由于未见过图像的标签是未知的，因此预测的标签将被表示为未见过图像的无意义的数字代码。为了验证视觉语义桥梁的有效性，在连接的语义表示和视觉特征，我们使用该模型来预测标签所看到的图像，并将它们与真实的标签。在实验中，我们使用在VOC 2012训练集上训练的模型来预测来自数据库集的10，000张图像的标签。由于VOC 2012中每张图像中对象的平均数量为1.301，因此我们为每张图像预测一个标签。标记的分布通过t-SNE可视化，如图1B所示。14.比较图在图14（a）和（B）中，我们可以发现，真实标签和预测标签的总体分布是相似的。然而，因为一个图像可以包含多个标签，但是仅用一个来预测，所以观察到每个预测的标签类别的区域比真实标签类别的区域小一点。同时，我们统计预测标签的正确性。8，283张图像的预测标签落在其真实标签内。这些实验结果表明，所提出的视觉语义桥具有较高的性能。

h3214463785

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Transductive Zero-Shot Hashing For MultilabelImage Retrieval

我们将我们的方法（T-MLSH）与其他九种方法进行了比较，包括传统方法KSH [2]，IMH [3]，SDH [4]，ZSH-DA [32]和TSHH [30]，以及基于深度学习的方法DHN [24]，Hashnet [26]，ADSH [83]和TSHH [33]。确切地说，来自源数据集和目标数据集的图像的数量分别为10，000和10，000，10，000和4，000，4，000和10，000。在传统的多标签图像检索中，通常需要大量的标注数据来训练模型，但这限制了模型在未见过的类别上的泛化能力。
复制链接

扫一扫

Transductive Zero-Shot Hashing For MultilabelImage Retrieval

“相关推荐”对你有帮助么？