Part-aware Prototype Network for Few-shot Semantic Segmentation阅读笔记

最新推荐文章于 2023-04-06 14:01:02 发布

喵喵喵喵诺

最新推荐文章于 2023-04-06 14:01:02 发布

阅读量1.1k

点赞数

分类专栏：论文阅读笔记图像分割

本文链接：https://blog.csdn.net/qq_42987423/article/details/114807945

版权

本文介绍了Part-aware Prototype Network在小样本语义分割中的应用，通过分解目标表示为部分特征，提高了分割精度。文章采用图注意力网络进行半监督学习，以增强类内变量的表示。此外，利用元学习策略训练模型，实现对不同任务的有效分割。

摘要由CSDN通过智能技术生成

第2节

贡献：
1.针对小样本语义分割提出了一种基于prototype的方法，在 one-way和multi-way当中都取得了很好的效果
2.提出了一个针对语义类的part-aware prototype表达，能够对细颗粒的目标特征进行编码，然后得到更好的分割
3.为了更好的得到类内的变量，使用一个图注意力网络对没有标签的数据进行半监督学习

本文的工作受到了度量学习方法的启发，其中包括由Oriol提出的将输入编码为一个embedded特征，并且实现加权最近邻来匹配类别。prototypical网络目的是学习一个度量空间，在这个空间中输入根据与类别的距离来进行分类。
同时也有很多方法为了增强小样本学习，利用了一些无标签数据，具体可以参考半监督小样本学习[24,16,1]。文【24】中通过soft k-means来从无标签的数据中获得prototypes。文【1】在局部与全局中引入了一个consistency loss来更好的利用无标签数据.

目前针对小样本的工作主要分成了两种： parametric matchingbased methods [37,36,35,20,3] and prototype-based methods [27,33]。当然也存在例外，MetaSegNet[29]采取了一种基于优化的小样本学习方法，将小样本分割转化为了像素分类问题.

参数匹配方法：Shaban[3]等人首先提出了一个权重imprinting方法，这个方法产生的分类权重用于小样本分割。【36】文中提出将在每一个空间位置的query特征的整体目标表示进行串接，并且引入了一个dense comparison模型来估计预测值。【35】文中将图注意力机制应用于每个query特征的前景（foreground）特征。然而这些方法都是适用于one-way小样本的情况，拓展到multi-way的情况计算量都很大。
prototype方法使用整体语义类的prototype来对query图像进行像素匹配。【33】在support和query图像间提出了指定类的prototype表示。[27]采取了一种新型的多重分辨率的prototype方法，这个方法是针对小样本分割的imprinting方法。而所有基于prototype的方法都受限于整体表示。为了解决这个问题，本文提出了将目标表示分解成一些part级的特征，进而对不同目标特征在一个细颗粒的级别上进行建模。
文[9]首次将图卷积网络引入小样本图像分类当中。相对的，本文就是使用图卷积神经网络来学习一组prototype用于语义分割任务

第3节

本文认为小样本语义分割的问题是为了从每个类的一小部分注释训练图像中来学习分割语义目标。为了这个目的，本文利用了一个元学习策略，即创建一个元学习器M来解决一类小样本语义分割任务T，这个任务主要是在一个潜在的任务分布PT中进行采样。
从形式上来说，每一个小样本分割任务T（也称为一个episode）都是由一些有标签值的support数据S和query图像组成。在半监督小样本中，support数据S={S^l,S^u}，而S^l表示有注释带标签的数据集，而S^u表示有注释没有标签的数据集。准确来说，是在样本中随机抽取C个类，每个类取K张图片下，注释的support数据每个类包含K个图像与标签对。具体表示
在这里插入图片描述
其中Y表示像素级的注释

在这里插入图片描述
$C^T$ 指的是任务T中类别的子集，| $C^T$ |=C。无标签support图像

从语义类集C中任意采样，在训练与推理过程中删除他们的类别标签。同样，query集

包含来自类别集 $C^T$ 的 $N_q$ 个图像，而这里面的图像注释在训练时存在，在测试时未知。
元学习器M旨在学习一个映射函数，这个函数的功能是对于所有任务将support集S和query集I^q映射到分割类Y上。为了实现这个目标，本文构建了具有一个类别集C^tr的分割任务的一个训练集，并且在D^tr任务上episodically训练元学习器。在元学习之后，使用模型M对信息进行编码，这个信息是关于在任务中如何在不同的语义类别中进行分割。最后在任务D^te的测试集上评估学习到的模型，D^te与D^tr不重叠。

第4节

在本文中，针对语义分割，采用了基于prototype的小样本学习结构来构建元学习器M。本文的主要思想就是通过一个新的prototype表示来获取到语义类的类内变量以及fine-grained特征。将每个类的support目标的整体性信息分解成了一些part-aware prototype表示，并且使用无标签数据来增强表示。
在这里插入图片描述
这里的元学习器选择了深度图网络，用于进行新表示的编码，query图像的分割。网络包含三个主要的网络：一个embedding网络（在任务下计算图像的特征图-4.1），一个prototype generation网络（从有标签和无标签的support数据集中提取到一些part-aware prototype-4.2）和一个part-aware掩膜生成网络（生成query图像的最后语义分割图像-4.3）。
为了训练元模型，使用一个混合（hybrid）损失并且引入了一个语义分支（4.4部分），这个语义分支获取到最初的语义类，为的是更加有效的信息。

4.1 embedding网络

在一个任务当中，PPNet的第一个模块就是一个提取所有图片特征的网络，而在本文中使用的是ResNet网络，同时引入了一个膨胀卷积来增大感受域和保存更多的空间信息。
在这里插入图片描述
f_em表示网络，I表示输入数据，F表示输出

n_ch表示特征通道数，（H_f，W_f）表示特征图的宽和高，同时设置掩膜的大小与特征图的大小相同。
在S^l中将图像特征分为了C+1个类别，其中有一个类别表示图像背景，其他C个表示图像语义类别
在这里插入图片描述
其中

包含了语义类k的所有特征