ZS-SBIR相关论文

ZS-SBIR

任务设定:

待解决的问题:

  1. domain gap。草图和图像来自不同的域,特征分布不同,需要模型学习到良好的抽取特征的能力,弥补domain gap。
  2. 语义嵌入。模型不光要学习在seen 类上抽取良好的特征,而且迁移到unseen类上也要有良好的特征。
一些论文发现的问题:
  1. 用同一个网络训练两个域的数据,模型会有域偏见,更偏向于学习image域
  2. 模型在微调过程中,随着迭代次数增加,网络会过拟合。
  3. 同一个数据集的草图类内风格差异大,类内特征不紧凑

2018

A Zero-Shot Framework for Sketch Based Image Retrieva
  • 作者团队:
  • 接收:ECCV2018

动机:

认为之前的工作不好的原因在于,只学习到了简单的类判别能力,泛化性不够好(在unseen类上)

方法:

提出一种生成式的模型CVAE和CAAE(条件对抗自编码器)。将草图和图像同时输入编码器,得到潜码z,由z生成对应的图像特征,并同时保证生成图像特征的潜在对齐。在测试时,只要输入草图,就可得到对应的图像特征,然后根据生成的N个图像特征向量的K-means 的K个聚类中心计算特征相似度 D ( x I d b , I x S ) = min ⁡ k = 1 K cosine ⁡ ( θ ( x I d b ) , C k ) \mathcal{D}\left(x_{I}^{d b}, \mathcal{I}_{x_{S}}\right)=\min _{k=1}^{K} \operatorname{cosine}\left(\theta\left(x_{I}^{d b}\right), C_{k}\right) D(xIdb,IxS)=mink=1Kcosine(θ(xIdb),Ck)

Zero-Shot Sketch-Image Hashing
  • 作者团队:英国诺里奇东英吉利大学,人工智能起始研究所 (IIAI),电子科技大学未来媒体研究中心
  • 接收:CVPR

动机:

  1. 现有SBIR方法在zero-shot场景下往往效果很差,因为所学习到的检索模型对查询图像没有语义概念知识
  2. zero-shot hashing虽然能解决大规模检索问题,但不适用于跨模态哈希和SBIR

方法:

  1. 利用attention机制只关注图片有用的部分。
  2. 在训练过程中,需要消除sketch/image的异质性,来生成统一的哈希码进行匹配 ( Kronecker fusion layer融合sketch/image特征信息)
  3. 仅仅凭借视觉信息不足以处理zero-shot SBIR hashing问题,因此需要设计深度哈希方法,来将语义信息迁移到unseen class
    (为了处理Zero-shot问题,graph convolution增强语义关系, generative hashing scheme从哈希码重建语义向量来保留语义信息)

2019

Doodle to Search: Practical Zero-Shot Sketch-based Image Retrieval ----CVPR
  • 作者团队:西班牙 UAB 计算机视觉中心,SketchX,CVSSP,英国萨里大学
  • 接收:CVPR2019

贡献:提出了一个更抽象的草图图像数据集–QuickDrwa

动机:解决ZS-SBIR任务的问题1:domain gap。2:数据集中sketch数量少

方法:加入语义监督,提高模型zero-shot的能力

主干采用预训练的VGG-16

  1. 使用度量学习的方法,三元组损失来拉近正例的相似性同时推远负例的相似性(使用了hard negtive sample的方法)

  2. 使用GRL层(梯度反转层,但会给训练带来问题,会使训练过程loss不稳定)来获得不可区分域的embedding(看作是二分类问题,但引入了GRL),以此来消除domain gap。

  3. 加入了边信息–Word2Vec输出的语义信息,将类编码成语义embedding,然后希望抽取到的图像特征通过MLP后能够重建出语义embedding(根据余弦相似度计算损失,在这里也使用了GRL,推远负例在语义空间的距离)。

最后的损失:语义重建+三元组+域判别

Semantically Tied Paired Cycle Consistency for Zero-Shot Sketch-Based Image
  • 作者团队:巴塞罗那自治大学计算机视觉中心, Amsterdam Machine Learning Lab University of Amsterdam
  • 接收:CVPR

方法:将提取的特征嵌入到共同的语义空间进行检索

主干采用预训练的VGG-16

  1. 通过对抗训练将两个域的图像映射到同一个语义空间

L adv  ( G s k , G i m , D s e , x , y , s ) = 2 × E [ log ⁡ D s e ( s ) ] + E [ log ⁡ ( 1 − D s e ( G s k ( x ) ) ) ] + E [ log ⁡ ( 1 − D s e ( G i m ( y ) ) ) ] \begin{array}{l} \mathcal{L}_{\text {adv }}\left(G_{\mathrm{sk}}, G_{\mathrm{im}}, D_{\mathrm{se}}, \mathbf{x}, \mathbf{y}, \mathbf{s}\right)=2 \times \mathbb{E}\left[\log D_{\mathrm{se}}(\mathbf{s})\right] \\ +\mathbb{E}\left[\log \left(1-D_{\mathrm{se}}\left(G_{\mathrm{sk}}(\mathbf{x})\right)\right)\right]+\mathbb{E}\left[\log \left(1-D_{\mathrm{se}}\left(G_{\mathrm{im}}(\mathbf{y})\right)\right)\right] \end{array} Ladv (Gsk,Gim,Dse,x,y,s)=2×E[logDse(s)]+E[log(1Dse(Gsk(x)))]+E[log(1Dse(Gim(y)))]

  1. 使用自编码器对语义信息进一步编码,得到语义embedding
  2. 通过对抗只能保证两个域输出的语义特征分布和边信息的特征分布是一致的(语义嵌入),但并不能保证语义监督和输入的图片是match的,因此利用循环一致性损失将输入和语义匹配起来(相当于又加了一个语义嵌入的约束)

最后的损失:分类+对抗+循环一致性损失+自编码器损失

Semantic-Aware Knowledge Preservation for Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:约翰霍普金斯大学,诺亚方舟实验室
  • 接收:ICCV

动机:认为之前工作效果不好的原因是因为在fine-tune 的过程中由于Catastrophic forgetting(灾难性遗忘),导致了模型zero-shot能力不好

方法:

主干采用预训练CSE-ResNet50

  1. 模型输出有两个分支,一个是source 域的输出结果,通过CrossEntropy Loss学习在source域的信息,另一个分支输出在ImageNet域的分类结果,由另一个冻结的结构相同的网络对其进行蒸馏来解决灾难性遗忘的问题(是对logits进行蒸馏)。
  2. 通过wordNet输出的语义向量(当前samlpe和ImageNet1000个类的相似度)来refine teacher net的输出信号(相似度和teacher输出的logits进行sum)

最后的损失:蒸馏+分类

2020

Progressive Cross-Modal Semantic Network for Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:西安电子科技大学
  • 接收:IEEE TIP

动机:

  1. 之前的方法要么采用标签信息约束投影特征的关系(标签信息缺乏类别间建模的能力)
  2. 将语义监督和草图/图像特征投影到公共空间(草图/图像特征并没有和语义特征对齐)

方法

  1. 首先将草图/特征与语义特征对齐(使用生成对抗的方式),然后通过解码器投影到共同的检索空间

语义特征由word2vec和wordnet输出

  1. 提出跨域的交叉重建损失使语义特征具有完整的跨域的知识。

交叉重建使提取的不同域的语义特征既能重建出当前域的视觉特征,也能重建出另一个域的视觉特征(缩小了domain gap)

  1. 用一个公共的(共享参数)的编码器得到检索空间的特征(将语义特征重新编码得到检索空间的特征),并且希望来自不同域的同类特征在检索空间的距离应该尽量小(缩小domain gap)

最终的损失函数:对抗+分类+交叉重建+欧式距离损失

Stacked Adversarial Network for Zero-Shot Sketch based Image Retrieval
  • 作者团队:印度马德拉斯理工学院
  • 接收:WACV

工作:提出了叠加式的对抗网络和孪生网络的检索方法,首先通过草图生成相应的图像,然后转变为image to image的检索问题。

方法:

首先通过stage1 conditional GAN网络,生成与草图feature对应的图像feature,但是是粗糙的,然后通过stage2的conditional GAN网络生成细化的图像的特征。将第二步生成的特征输入孪生网络(siamese network)进行检索。

Ocean: A Dual Learning Approach For Generalized Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:电子科技大学
  • 接收:ICME

2021

Transferable Coupled Network for Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:西安电子科技大学
  • 接收:IEEE TAPMI

动机:

之前工作不好的原因在于训练过程中引入了特定模态的参数来过度拟合多模态对齐的目标(对一个域过拟合,因此zero-shot能力不好)(针对使用同一个网络提取两个域的特征)

方法:

  1. 提出软权重共享,硬权重共享在训练时会偏向单个域的信息(photo域包含颜色,纹理等视觉信息,因此在学习时会占主导地位)。软权重共享可以解决域不平衡的问题。
  2. 简单有效的语义度量。利用word2vec输出的向量作为全局anchor与sample的anchor做插值获得新的anchor,然后用度量学习的方法计算语义损失

最后的约束:分类+蒸馏+软权重共享+语义损失

模型结构:

三分分支网络:teacher, 其他两个分支分别抽取sketch和image的特征。

Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:西安电子科技大学
  • 接收:IJCAI

动机:

  1. 基于分类的模型在SBIR任务中忽略了同一个类中sketch和image的联系
  2. 绘制的草图风格差异,导致类内差异大,提取的特征差异也大,因此降低了检索效果

解决方法:

  1. 为了联系sketch和image,借鉴对比学习的思路,先对image和sketch增强得到两个view然后计算对比学习(同时计算类内和类间)

  2. 为每个类维护一个sketch的memory bank,通过基于历史信息实时更新里面的特征。然后计算每个batch中image和同类的memory bank的中心的相似度。然后最小化这个相似度,来拉近image和sketch的相似性(另一方面也缩小了domain gap)

总的损失:分类+蒸馏+跨域对比损失 + memory bank的相似性损失

Zero-Shot Sketch-Based Image Retrieval via Graph Convolution Network
  • 作者团队:
  • 接收:
Relationship-Preserving Knowledge Distillation for Zero-Shot Sketch Based Image Retrieval
  • 作者团队:电子科技大学,广东电子科技大学
  • 接收:ACM MM

2022

Augmented Multimodality Fusion for Generalized Zero-Shot Sketch-Based Visual Retrieval
  • 作者团队:Department of Computer Science, Tulane University,
  • 接收:IEEE TIP
Sketch3T: Test-Time Training for Zero-Shot SBIR ----CVPR
  • 作者团队:SketchX,CVSSP,英国萨里大学,科大讯飞-萨里人工智能联合研究中心
  • 接收:CVPR
A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch
  • 作者团队:美国佐治亚理工学院,谷歌研究院
  • 接收:ECCV
An efficient framework for zero-shot sketch-based image retrieval
  • 作者团队:澳大利亚昆士兰科技大学

  • 接收:IEEE PR

Three-Stream Joint Network for Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:山东大学,山东建筑大学
  • 接收:
TVT: Three-Way Vision Transformer through Multi-Modal Hypersphere Learning for Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:电子科技大学
  • 接收:AAAI
Norm-guided Adaptive Visual Embedding for Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:华中科技大学,南方科技大学
  • 接收:IJCAI
Prototype-based Selective Knowledge Distillation for Zero-Shot Sketch Based Image Retrieval
  • 作者团队:电子科技大学等
  • 接收:ACM MM
Progressive Domain-Independent Feature Decomposition Network for Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:西安电子科技大学
  • 接收:IJCAI
Zero-shot sketch-based image retrieval with structure-aware asymmetric disentanglement
  • 作者团队:中国上海交通大学

  • 接收:Computer Vision and Image Understanding

2023

Distribution Aligned Feature Clustering for Zero-Shot Sketch-Based Image Retrieval
  • 作者团队:背景科技大学
  • 接收:
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大力发展生产力--

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值