CVPR2023: Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation

1、Abstract

  • Zero-shot的分割能力依赖于类间关系,将从seen类别中学习到的视觉知识转移到unseen类别中。因此希望能够很好地桥接语义-视觉空间,并将语义关系应用于视觉特征学习。

  • 引入了一个生成模型来合成unseen类别的fake特征,它将语义和视觉空间联系起来(利用seen的视觉+语义特征+unseen语义特征生成unseen的视觉特征)。

  • 为了减轻语义和视觉空间之间的domain gap:

1)使用可学习的primitives来增强生成器(每个primitives包含与类别相关的细粒度的属性),并通过有选择的组装这些primitives来合成unseen 的特征;
2)将视觉特征分解为语义相关部分和语义无关部分(包含有用的视觉分类线索,但与语义表示相关性较低),然后,需要将语义相关的视觉特征的类间关系在语义空间中对齐,从而将语义知识转移到视觉特征学习。

在这里插入图片描述

2、整体架构

  • 整体架构:具有Primitive增强的generator + 特征Disentanglement learning + Relationship Alignment
  • Backbone预测一组与类别无关的掩码及其相应的class embedding。
  • Primitive generator从semantic embeddings中合成class embeddings,将真实的和合成的class embeddings分解为语义相关和语义无关的特征。然后对语义相关特征进行关系对齐学习。
  • 用可见类别的真实的class embeddings和不可见类别的合成class embeddings来重新训练我们的分类器。
    在这里插入图片描述

Task formulation
1)feature space X:图像的视觉特征
在这里插入图片描述
2)semantic space A:类别的语义表示
在这里插入图片描述
3)Ground truth label:
在这里插入图片描述
在这里插入图片描述

3、Primitive Cross-Modal Generation

  • 由于缺乏unseen样本,因此,在seen类上训练的分类器倾向于为所有样本分配seen的标签,这被称为偏差问题
  • 图像通常比语言包含更丰富的信息。视觉信息提供对象的非常细粒度的属性,而文本信息通常提供抽象和高级的属性。
  • 因此,提出了一个Primitive Cross-Modal Generator,采用大量的learned attribute primitives来构建视觉表示。
    在这里插入图片描述
  • 首先,随机初始化一组可学习的primitives,为P={pi},i=1~N,通道数为dk
  • 这些primitives被假定为包含与类别相关的非常细粒度的属性,例如,hair, color, shape等。这些primitives的不同类型的组合构建了类别的不同表示(更好的将seen转移到unseen中)。

self attention:使用两个不同的线性层ωK和ωV来处理P,以获得Key和Value,将semantic embeddings作为Query
在这里插入图片描述
X′表示合成视觉特征,Z表示具有固定高斯分布的随机样本。ω1是线性层。
遵循GMMN(Generative moment matching networks)来定义生成器损失:
在这里插入图片描述

  • 对于在语义空间相似的这些类别, primitives提供了一种明确的方式来表达这种相似性。例如,dog和cat都具有hairy和tail属性,因此与hairy和tail相关的primitives对dog和cat的semantic embeddings表现出较高的响应。

  • 有了这些描述细粒度属性的primitives,我们可以很容易地构建不同的类别表示,并将seen类的知识转移到unseen类。

4、Semantic-Visual Relationship Alignment

  • 例:apple, orange, and cow:apple & orange的关系比apple & cow的关系更密切,语义空间中的类关系是强大的先验知识,去进行特定类特征的生成并未明确利用这种关系 — Semantic-Visual Alignment
  • Two step:

1)引入semantic-related visual space:提取语义相关的特征用于对齐,并且排除语义无关的噪声;
2)Relationship Alignment:构建语义相关特征之间的类间关系,减少语义-视觉特征分布之间的差异,从而提高特征Disentanglement的效果。

在这里插入图片描述

4.1、Semantic-related Visual Feature

  • 视觉特征并不与语义表示完全一致,而是包含更丰富的信息,包括语义相关的视觉特征以及语义无关的视觉特征。

  • 与语义无关的特征可能具有很强的视觉线索并有助于分类,但与语言语义表示的相关性较低。

  • 直接将semantic embeddings与原始视觉特征对齐会困扰生成器(噪声干扰),并降低其对unseen类别的泛化能力。

  • 解决方案:将语义相关的视觉特征和语义无关的视觉特征分开再进行Relationship Alignment 。

在这里插入图片描述

4.2、Relationship Alignment

在这里插入图片描述
在这里插入图片描述

5、整体训练流程

  • 整体训练过程如下
  • First,全监督预训练segmentation backbone
  • Next,训练Primitive generator
  • Generator生成unseen类别的合成特征,与seen类的真实特征一起训练新的classification layer
  • 采用CLIP text embeddings and word2vec 作为semantic embedding
    在这里插入图片描述
    在这里插入图片描述
  • 19
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值