《Progressive Cross-Modal Semantic Network for Zero-Shot Sketch-Based Image Retrieval》论文学习

最新推荐文章于 2024-06-21 08:36:45 发布

waiall

最新推荐文章于 2024-06-21 08:36:45 发布

阅读量546

点赞数 1

分类专栏： java 文章标签：机器学习跨模态检索深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/uestc_huhu/article/details/115292766

版权

java 专栏收录该内容

28 篇文章 1 订阅

订阅专栏

Abstract
Zero-shot sketch-based image retrieval (ZS-SBIR)是一个特别的跨模态检索任务，涉及通过可用的手绘草图，在零次学习的设想下，去搜索自然图片。以前的方法都是设想把草图和图像特征映射到一个低纬度的公共空间，来完成高效率的搜索。并且同时，对齐和映射特征到他们的语义特征（类别级的词向量），将knowledge从seen到unseen进行迁移。然而对齐与投影是耦合的，结果，因为缺乏准确的对齐最终导致不理想的零次检索效果。为了解决上述问题，提出了一个novel progressive cross-modal semantic network，特别的，他首先将草图和图像特征明确对齐到语义空间，然后将对齐的特征映射到公共空间供后续检索。
我们进一步采用交叉重建损失来加强对齐的特征以捕获这两种模态的完整的knowledge，同时用多模态的欧几里得损失来保证草图之间检索特征的相似性。

Introduction
作者认为以前的工作仅仅确保草图和图片模态映射到一个公共空间，最后再translation返回到原始模态，他们忽略了当前模态与相关模态映射特征之间的关系。因此渲染投影特征的knowledge是不充分的。
所以解决这个问题，作者认为在语义空间中投影的特征被显示对齐时，在零次学习的设想下，这样才会有更利于产生更有用的检索特征。因此提出的先进方法是：先对齐然后再解码，概述图如下图所示：
在这里插入图片描述
上图可知，映射的特征都拥有两种模态的knowledge，作者使用Cross-reconstruction loss来确保映射的特征不仅能重构their own modality而且还能重构corresponding modality.

将草图和图像特征对齐到公共空间的三种不同方式：图1（a）和图1（b）中所示的方法将草图和图像特征投影到低维公共空间中，以进行有效检索，同时还利用标签或词向量来约束投影特征之间的关系。图1（c）说明了的方法，该方法首先将草图和图像特征explicity aligns to word vectors，然后将它们投影到公共检索空间。

Contribution
在本文中，为ZS-SBIR任务提出了一个两分支渐进式跨模态语义网络，每个分支用对抗的方式首先将草图和图片特征明显对齐到语义特征，然后利用解码器将它们投影到一个公共的检索空间中。这个策略能够用词向量对齐草图和图像特征，这有利于零次学习情景下的知识转移。
另外，由于语义特征应该对有关两种模态的全部知识进行编码，因此引入了交叉重构损失，以确保语义特征不仅可以重构当前原始模态的输入，还可以重构相应的模态。
此外，将分类损失强加到检索特征上可确保检索特征具有判别性，而多模态的欧几里得损失则可确保来自不同模态的同一类别的检索特征将更加相似。应该注意的是，每个分支中的解码器的参数是共享的，以减轻过度拟合的情况。

main contribution can be summarized as follows
1.提出了一种进步的投影方法，有效解决由于缺乏explicit alignment导致的knowledge loss problem,这有利于知识转移。
2.交叉重构损失确保了语义特征具有关于草图和图像的模态的完整知识，从而可以解决知识有限的问题。
3.实验结果效果好，检索精度高。

METHODOLOG
给定一个特定的草图，我们的目标是在零镜头设置下从自然图库中检索相应的图像。也就是说，训练集和测试集的草图类别是不相交的。
本论文网络的概述图如下所示：
在这里插入图片描述
此模型包括提供side信息的语义知识嵌入和一个用于综合检索特征的先进跨模态网络。为了解决由于缺少明显对齐所引起的信息丢失， progressive cross-modal network首先用对抗的方式通过将投影特征和单词向量对齐来获得语义特征，然后再解密语义特征来或者检索特征，每个分支上的跨周期一致性约束确保将草图或图像模态映射到公共语义空间，然后不仅将其转换回原始模态，而且还转换回相应的模态。这确保了语义特征拥有有关这两种模态的更完整的知识。而且，在检索特征解码器之间共享参数可以减轻过度拟合。
另外在检索特征上强加分类损失和多峰欧几里得损失可以形成高判别性的特征，模型主要学习三个映射函数，Gske，Gimg，和retrieval feature decoder function Dd

A Semantic Feature Generation
1.Semantic Knowledge Embedding:
在本文中利用Word2Vec和GloVe来获得text representations
2.Generative Adversarial Mechanism:
正如上图概述图所示，每个分支都包含一个生成器和一个共同的判别器。对抗学习的目标是以对抗方式学习语义特征，语义特征想通过fooling 判别器D的方法来使得与词向量相似。loss如下：

在这里插入图片描述
S=(seen)是辅助信息的集合。在本文中，辅助信息是从两个不同的语义知识模型中组合而来的。这确保了整个模型可以在零镜头情况下更有效地将知识从可见的类转移到看不见的类。
（word vectors with semantic knowledge）
3.Cross-Reconstruction Constraint
引入跨模态重构loss可以确保重构的特征与原始特征相似，loss如下（也就是图中decoder部分）

在这里插入图片描述
全部的跨模态重构损失如下：

B.Retrieval Feature Generation
1.Classification Constraint

检索特征是否有区别会影响距离空间中的度量，这对于检索任务极为重要。为了减轻这个问题，训练了两个具有共享参数的解码器来解码语义特征以获得检索特征。同时，在两个分支之后引入类别分类器以生成检索特征。通过实施此方法，我们的方法使检索特征更具区别性，并且通过共享检索特征解码器的参数来减轻过度拟合。损失可以写成如下：
在这里插入图片描述
2.Multi-Modal Euclidean Loss
网络生成的检索特征应该相似，为此，引入了多模式欧几里得损失，以提高不同类别的同一类别检索特征的相似性。loss定义如下：