CVPR2023: Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation

最新推荐文章于 2024-05-16 15:37:34 发布

masterleoo

最新推荐文章于 2024-05-16 15:37:34 发布

阅读量934

点赞数 19

分类专栏：实例分割语义分割文章标签：神经网络深度学习人工智能图像处理视觉检测计算机视觉

本文链接：https://blog.csdn.net/m0_48086806/article/details/134579805

版权

实例分割同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

语义分割

3 篇文章 0 订阅

订阅专栏

文章目录

1、Abstract
2、整体架构
3、Primitive Cross-Modal Generation
4、Semantic-Visual Relationship Alignment
- 4.1、Semantic-related Visual Feature
- 4.2、Relationship Alignment
5、整体训练流程

1、Abstract

Zero-shot的分割能力依赖于类间关系，将从seen类别中学习到的视觉知识转移到unseen类别中。因此希望能够很好地桥接语义-视觉空间，并将语义关系应用于视觉特征学习。
引入了一个生成模型来合成unseen类别的fake特征，它将语义和视觉空间联系起来（利用seen的视觉+语义特征+unseen语义特征生成unseen的视觉特征）。
为了减轻语义和视觉空间之间的domain gap：

1）使用可学习的primitives来增强生成器（每个primitives包含与类别相关的细粒度的属性），并通过有选择的组装这些primitives来合成unseen 的特征；
2）将视觉特征分解为语义相关部分和语义无关部分（包含有用的视觉分类线索，但与语义表示相关性较低），然后，需要将语义相关的视觉特征的类间关系在语义空间中对齐，从而将语义知识转移到视觉特征学习。

在这里插入图片描述

2、整体架构

整体架构：具有Primitive增强的generator + 特征Disentanglement learning + Relationship Alignment
Backbone预测一组与类别无关的掩码及其相应的class embedding。
Primitive generator从semantic embeddings中合成class embeddings，将真实的和合成的class embeddings分解为语义相关和语义无关的特征。然后对语义相关特征进行关系对齐学习。
用可见类别的真实的class embeddings和不可见类别的合成class embeddings来重新训练我们的分类器。

Task formulation
1）feature space X：图像的视觉特征

2）semantic space A：类别的语义表示

3）Ground truth label：

3、Primitive Cross-Modal Generation

由于缺乏unseen样本，因此，在seen类上训练的分类器倾向于为所有样本分配seen的标签，这被称为偏差问题
图像通常比语言包含更丰富的信息。视觉信息提供对象的非常细粒度的属性，而文本信息通常提供抽象和高级的属性。
因此，提出了一个Primitive Cross-Modal Generator，采用大量的learned attribute primitives来构建视觉表示。
首先，随机初始化一组可学习的primitives，为P={pi}，i=1~N，通道数为dk
这些primitives被假定为包含与类别相关的非常细粒度的属性，例如，hair, color, shape等。这些primitives的不同类型的组合构建了类别的不同表示（更好的将seen转移到unseen中）。

self attention：使用两个不同的线性层ωK和ωV来处理P，以获得Key和Value，将semantic embeddings作为Query

X′表示合成视觉特征，Z表示具有固定高斯分布的随机样本。ω1是线性层。
遵循GMMN（Generative moment matching networks）来定义生成器损失：

对于在语义空间相似的这些类别， primitives提供了一种明确的方式来表达这种相似性。例如，dog和cat都具有hairy和tail属性，因此与hairy和tail相关的primitives对dog和cat的semantic embeddings表现出较高的响应。
有了这些描述细粒度属性的primitives，我们可以很容易地构建不同的类别表示，并将seen类的知识转移到unseen类。

4、Semantic-Visual Relationship Alignment

例：apple, orange, and cow：apple & orange的关系比apple & cow的关系更密切，语义空间中的类关系是强大的先验知识，去进行特定类特征的生成并未明确利用这种关系 — Semantic-Visual Alignment
Two step：

1）引入semantic-related visual space：提取语义相关的特征用于对齐，并且排除语义无关的噪声；
2）Relationship Alignment：构建语义相关特征之间的类间关系，减少语义-视觉特征分布之间的差异，从而提高特征Disentanglement的效果。

在这里插入图片描述

4.1、Semantic-related Visual Feature

视觉特征并不与语义表示完全一致，而是包含更丰富的信息，包括语义相关的视觉特征以及语义无关的视觉特征。
与语义无关的特征可能具有很强的视觉线索并有助于分类，但与语言语义表示的相关性较低。
直接将semantic embeddings与原始视觉特征对齐会困扰生成器（噪声干扰），并降低其对unseen类别的泛化能力。
解决方案：将语义相关的视觉特征和语义无关的视觉特征分开再进行Relationship Alignment 。

4.2、Relationship Alignment

在这里插入图片描述

5、整体训练流程

整体训练过程如下
First，全监督预训练segmentation backbone
Next，训练Primitive generator
Generator生成unseen类别的合成特征，与seen类的真实特征一起训练新的classification layer
采用CLIP text embeddings and word2vec 作为semantic embedding

masterleoo

关注

19
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
CVPR2023: Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation

Zero-shot的分割能力依赖于类间关系，将从seen类别中学习到的视觉知识转移到unseen类别中。因此希望能够很好地桥接语义-视觉空间，并将语义关系应用于视觉特征学习。引入了一个生成模型来合成unseen类别的fake特征，它将语义和视觉空间联系起来（利用seen的视觉+语义特征+unseen语义特征生成unseen的视觉特征）。
复制链接

扫一扫