文章目录
1、Abstract
-
Zero-shot的分割能力依赖于类间关系,将从seen类别中学习到的视觉知识转移到unseen类别中。因此希望能够很好地桥接语义-视觉空间,并将语义关系应用于视觉特征学习。
-
引入了一个生成模型来合成unseen类别的fake特征,它将语义和视觉空间联系起来(利用seen的视觉+语义特征+unseen语义特征生成unseen的视觉特征)。
-
为了减轻语义和视觉空间之间的domain gap:
1)使用可学习的primitives来增强生成器(每个primitives包含与类别相关的细粒度的属性),并通过有选择的组装这些primitives来合成unseen 的特征;
2)将视觉特征分解为语义相关部分和语义无关部分(包含有用的视觉分类线索,但与语义表示相关性较低),然后,需要将语义相关的视觉特征的类间关系在语义空间中对齐,从而将语义知识转移到视觉特征学习。
2、整体架构
- 整体架构:具有Primitive增强的generator + 特征Disentanglement learning + Relationship Alignment
- Backbone预测一组与类别无关的掩码及其相应的class embedding。
- Primitive generator从semantic embeddings中合成class embeddings,将真实的和合成的class embeddings分解为语义相关和语义无关的特征。然后对语义相关特征进行关系对齐学习。
- 用可见类别的真实的class embeddings和不可见类别的合成class embeddings来重新训练我们的分类器。
Task formulation
1)feature space X:图像的视觉特征
2)semantic space A:类别的语义表示
3)Ground truth label:
3、Primitive Cross-Modal Generation
- 由于缺乏unseen样本,因此,在seen类上训练的分类器倾向于为所有样本分配seen的标签,这被称为偏差问题
- 图像通常比语言包含更丰富的信息。视觉信息提供对象的非常细粒度的属性,而文本信息通常提供抽象和高级的属性。
- 因此,提出了一个Primitive Cross-Modal Generator,采用大量的learned attribute primitives来构建视觉表示。
- 首先,随机初始化一组可学习的primitives,为P={pi},i=1~N,通道数为dk
- 这些primitives被假定为包含与类别相关的非常细粒度的属性,例如,hair, color, shape等。这些primitives的不同类型的组合构建了类别的不同表示(更好的将seen转移到unseen中)。
self attention:使用两个不同的线性层ωK和ωV来处理P,以获得Key和Value,将semantic embeddings作为Query
X′表示合成视觉特征,Z表示具有固定高斯分布的随机样本。ω1是线性层。
遵循GMMN(Generative moment matching networks)来定义生成器损失:
-
对于在语义空间相似的这些类别, primitives提供了一种明确的方式来表达这种相似性。例如,dog和cat都具有hairy和tail属性,因此与hairy和tail相关的primitives对dog和cat的semantic embeddings表现出较高的响应。
-
有了这些描述细粒度属性的primitives,我们可以很容易地构建不同的类别表示,并将seen类的知识转移到unseen类。
4、Semantic-Visual Relationship Alignment
- 例:apple, orange, and cow:apple & orange的关系比apple & cow的关系更密切,语义空间中的类关系是强大的先验知识,去进行特定类特征的生成并未明确利用这种关系 — Semantic-Visual Alignment
- Two step:
1)引入semantic-related visual space:提取语义相关的特征用于对齐,并且排除语义无关的噪声;
2)Relationship Alignment:构建语义相关特征之间的类间关系,减少语义-视觉特征分布之间的差异,从而提高特征Disentanglement的效果。
4.1、Semantic-related Visual Feature
-
视觉特征并不与语义表示完全一致,而是包含更丰富的信息,包括语义相关的视觉特征以及语义无关的视觉特征。
-
与语义无关的特征可能具有很强的视觉线索并有助于分类,但与语言语义表示的相关性较低。
-
直接将semantic embeddings与原始视觉特征对齐会困扰生成器(噪声干扰),并降低其对unseen类别的泛化能力。
-
解决方案:将语义相关的视觉特征和语义无关的视觉特征分开再进行Relationship Alignment 。
4.2、Relationship Alignment
5、整体训练流程
- 整体训练过程如下
- First,全监督预训练segmentation backbone
- Next,训练Primitive generator
- Generator生成unseen类别的合成特征,与seen类的真实特征一起训练新的classification layer
- 采用CLIP text embeddings and word2vec 作为semantic embedding