[小样本图像分割]Part-aware Prototype Network for Few-shot Semantic Segmentation

最新推荐文章于 2024-07-16 20:35:52 发布

XL_Dylan

最新推荐文章于 2024-07-16 20:35:52 发布

阅读量1.9k

点赞数

分类专栏：小样本图像分割文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_38932073/article/details/115477348

版权

小样本图像分割专栏收录该内容

18 篇文章

订阅专栏

本文提出了一种基于部分感知原型的Few-Shot语义分割框架，解决了现有方法在one-wayFew-Shot分割和目标区域覆盖上的局限。通过将整体类表示分解为部分感知原型，利用未标记数据丰富这些原型，模型能更好地捕捉对象的多样化特征和类内变化。方法包括嵌入网络、原型生成网络（含部分生成和细化模块）以及部分感知掩码生成网络。实验结果显示了方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

面向Few-Shot语义分割的部分感知原型网络（ECCV2020）

论文地址
 开源代码

摘要

现有的方法大多集中在one-way Few-Shot分割的限制性设置上，或者存在目标区域不完全覆盖的问题。本文提出了一种基于原型表示的Few-Shot语义分割框架。我们的关键思想是将整体的类表示分解为一组部分感知原型，能够捕获多样化和细粒度的对象特征。此外，我们提出利用未标记的数据来丰富我们的部分感知原型，从而更好地建模语义对象的类内变量。我们开发了一个新的图神经网络模型，以生成和增强提出的基于标记和未标记图像的部分感知原型。

存在的问题及解决方案

之前的一些工作仅仅关注one-way Few-Shot分割。它们的方法使用密集的成对特征匹配和特定的解码网络来生成分割，因此这些方法通常难以泛化且计算成本高。其次，其它基于原型的方法通常对每个语义类使用整体表示，这很难处理不同部位、姿势或子类别对象的不同外观。更重要的是，所有这些方法都只是表示了一个基于小支持集的语义类，这对捕捉分割任务所需的丰富和细粒度特征变化是有限制的。

我们的主要思想是在两个方向上丰富语义类的原型表示。首先，我们将常用的整体原型表示分解为一个小的部分感知原型集，这些原型能够捕获多样化和细粒度的对象特征，并在语义对象区域产生更好的空间覆盖。此外，受先前图像分类工作的启发，我们将一组未标记的图像合并到我们的支持集中，这样我们的部分感知原型就可以从已标记和未标记的数据源中学习。这使我们能够超越受限制的小支持集，更好地对对象特征的类内变化建模。我们将这种新的问题设置称为半监督少镜头语义分割。基于我们的新原型，我们还设计了一种简单而灵活的匹配策略，既可用于one-way设置，也可用于multi-way设置。

方法

我们的方法的主要思想是通过一个新的原型表示来捕获语义类的类内变异和细粒度特征。具体来说，我们提出将支持对象的通用整体表示分解为每个类的一组部件原型，并额外利用未标记的数据来丰富它们的表示。

我们的网络由三个主要网络组成:一个为任务内的图像计算卷积特征映射的嵌入网络；一个原型生成网络，从标记和未标记的支持图像中提取一组部分感知原型；以及部分感知的掩码生成网络，用于生成查询图像的最终语义分割。
在这里插入图片描述

嵌入网络

用来提取图像特征，使用ResNet作为backbone。这里需要注意的一点是在 $C - w a y$ $K - s h o t$ 的情况下，我们将带标记的支持集 $S^l$ 的所有图像的特征划分成 $C + 1$ 个子集： $\mathcal{F}^l=\left\{ \mathcal{F}_{k}^{l},k=0,1,...,C \right\}$ ， $C$ 表示 $S^l$ 中包含的类数目，0表示背景类。假定经过嵌入网络后得到到特征为 $F\in \mathbb{R}^{H_f\times W_f\times n_{ch}}$ ，则 $\mathcal{F}_{k}^{l}$ 包含所有被语义类 $k$ 标记的特征 $f\in \mathbb{R}^{n_{ch}}$ ，类似地我们假定未标记支持集 $\mathcal{S}^u$ 的所有特征表示为 $\mathcal{F}^u$ 。

原型生成网络

原型生成网络，旨在为每个类生成一组有区别的部分感知原型。原型生成网络包括两个子模块:部分生成模块（Part Generation Module）和部分细化模块（Part Refinement Module）
在这里插入图片描述

Part Generation with Labeled Data

部分生成模块从标记的支持集构建一组部分感知原型，以便在对象区域捕获细粒度的part-level变化。

具体地，我们将每个类的原型数量表示为 $N_p$ 和原型集合 $\mathcal{P}_k=\left\{ p_i \right\} _{i=1}^{N_p},p_{i\in}\mathbb{R}^{n_{ch}}$ ，为了定义这些原型，首先使用K-means聚类在特征集合 $\mathcal{F}_{k}^{l}$ 上得到一组数据划分 $\mathcal{G}=\left\{ G_1,G_2,...,G_{N_p} \right\}$ ，然后使用平均池化生成初始原型集合 $\overset{\sim}{\mathcal{P}}_k=\left\{ \overset{\sim}{p_i} \right\} _{i=1}^{N_p}$
在这里插入图片描述
我们进一步将语义类的全局上下文信息合并到部分感知原型中，通过在每个初始原型中增加上下文向量，该向量是基于注意机制从同一类中的其他原型中估计出来的：

Part Refinement with Unlabeled Data

第二个子模块是Part Refinement模块，它通过在额外的未标记的支持图像上丰富原型来捕获每个语义类的类内变化。然而，利用未标注的数据是具有挑战性的，因为未标注的图像特征集 $\mathcal{F}^u$ 具有更多的噪声，而且通常比标记集合 $\mathcal{F}^l_k$ 体积更大。

我们通过分组和剪枝过程来解决上述两个问题，生成一个更小却更相关的类 $k$ 的特征集合 $\mathcal{R}^u_k$ ，然后，我们设计一个图形注意网络来平滑未标记的特征，并通过聚合这些特征来完善部分感知原型。具体来说，我们的细化过程包括以下三个步骤：
Step-1: Relevant feature generation：
首先利用超像素生成的思想，计算出未标记图像的区域级特征表示。具体来说，我们将SLIC应用于所有未标记的图像，并在 $\mathcal{F}^u$ 上生成一组分组，分组定义为 $\mathcal{R}=\left\{ R_1,R_2,...,R_{N_r} \right\}$ ，我们使用平均池化来生成区域级特征池 $\mathcal{R}^u=\left\{ r_i \right\} _{i=1}^{N_r}$ ，然后我们为类 $k$ 选取一组相关特征如下:
在这里插入图片描述
Step-2: Unlabeled feature augmentation：
对于选择的未标记的特征，第二步的目标是通过在未标记的特征集中合并上下文信息来增强这些区域级表示。这允许我们对语义类的局部和全局线索进行编码。

具体来说，我们在特征集合 $\mathcal{R}^u_k$ 上建立一个全连接图，然后使用以下消息传递函数来计算更新 $\overset{\sim}{\mathcal{R}^u_k}=\left\{ \overset{\sim}{r_i} \right\} _{i=1}^{|\overset{\sim}{\mathcal{R}^u_k}|}$
在这里插入图片描述
Step-3: Part-aware prototype refinement：
考虑到增强的未标记特征，我们用类似于标记的注意力策略来改进原始的部分感知原型。我们使用局部注意力原始 $\mathcal{P}_k$ 作为注意力查询来在 $\overset{\sim}{\mathcal{R}^u_k}$ 中选择相似的未标记特征，然后将它们合并到 $\mathcal{P}_k$ 中：
在这里插入图片描述
类 $k$ 的最终细化原型集记为 $\mathcal{P}_k^r=\left\{ p_1^r,p_2^r,...,p_{N_p}^r \right\}$

部分感知掩码生成网络

在每个元任务中给与每个语义类和背景的部分感知原型 $\left\{ \mathcal{P}_{k}^{r} \right\} _{k=0}^{C}$ ，我们引入了一种简单而灵活的匹配策略来对查询图 $I^q$ 像进行语义掩码预测。

我们首先匹配每个部分感知原型来得到一个相似度评分：
在这里插入图片描述
然后，我们通过max-pooling将类 $k$ 的所有分数映射融合在一起，并通过连接所有类的分数映射生成输出分割分数:

实验结果

在这里插入图片描述

结论

在这项工作中，我们提出了一种灵活的基于原型的Few-Shot语义分割方法。我们的方法能够捕获每个语义类的不同外观。为了实现这一点，我们提出了一个部分感知原型表示来编码细粒度的对象特征。此外，我们利用未标记的数据来捕获原型的类内变量，其中我们引入了第一个半监督少镜头语义分割框架。我们开发了一种新的图神经网络模型，用于生成和增强基于支持图像的部分感知原型。