论文阅读笔记《PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment》

最新推荐文章于 2024-08-15 11:32:01 发布

深视

最新推荐文章于 2024-08-15 11:32:01 发布

阅读量3.1k

点赞数 1

分类专栏：论文阅读笔记 # 小样本学习文章标签：深度学习小样本学习语义分割原型网络

本文链接：https://blog.csdn.net/qq_36104364/article/details/106781918

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章 141 订阅

订阅专栏

小样本学习

100 篇文章 136 订阅

订阅专栏

小样本学习&元学习经典论文整理||持续更新

核心思想

本文提出一种基于原型网络的小样本语义分割算法(PANet)。该算法沿用了原型网络（Prototypical Network）中距离度量的思想，首先利用特征提取网络提取支持集和查询集图像的特征图，然后利用二元的分割图像对支持集图像做掩码操作，并计算得到每个类别对应的原型向量。接着计算查询集特征图中的每个像素与原型向量之间的距离，并利用softmax函数转化为概率。最后选择概率值最大的作为该像素点对应的类别。整个网络的结构如下图所示
在这里插入图片描述
首先，支持集图像和查询集图像分别经过两个共享权重的特征提取网络，得到对应的特征图。然后，本文采用了后混合掩码（late fusion mask）的方式，也就是先提取特征图，再对特征图进行掩码（相对的先掩码（early fusion mask）就是先对输入图像进行掩码操作，然后再提取特征图）。得到掩码后的特征图，通过平均池化的方式计算得到每个类别对应的原型向量，计算过程如下
在这里插入图片描述
式中 $p_c$ 表示类别 $c$ 对应的原型向量， $K$ 表示每个类别中样本的数量， $(x, y)$ 表示空间中的位置坐标， $F_{c,k}^{(x,y)}$ 表示 $c$ 类物体的第 $k$ 个样本图片，在 $(x, y)$ 处的特征值， $M_{c,k}^{(x,y)}$ 表示 $c$ 类物体的第 $k$ 个样本图片，在 $(x, y)$ 处的类别掩码值。得到类别原型向量后，计算查询集特征图中的每个位置对应的特征向量与各个类别原型向量之间的距离，并利用softmax函数转化为概率值，计算过程如下
在这里插入图片描述
$\tilde{M} _{q;j}^{(x,y)}$ 表示查询集图像在坐标 $(x, y)$ 处的像素属于类别 $j$ 的预测概率值； $d$ 表示距离度量函数，在原型网络中采用的是平方欧氏距离，而本文经过实验表明采用经过放缩的余弦距离度量函数，训练过程更加稳定； $\alpha$ 表示放缩系数。最后取每个像素点上概率值最大的类别，作为预测结果，计算过程如下
在这里插入图片描述
此时网络还没有结束，作者又提出了一种称之为原型对齐正则化（Prototype alignment regularization ，PAR）的方法对结果进行优化。这个过程也非常简单，就是将查询集图像和支持集图像呼唤，因为在前面的计算过程中，我们已经得到了查询集图像对应的掩码图，因此我们就利用其作为支持集，反过来去预测原支持集图像对应的掩码图，并与真实值相比较计算损失。这一方法能够从支持集中获取更多的信息，但该过程仅在训练中使用，测试中不使用。

实现过程

网络结构

特征提取网络采用VGG-16中的卷积层部分，并且将第四个卷积层对应的最大池化层步长改为1，以保持空间尺寸；此外还将第五个卷积层改为扩张率为2的空洞卷积，以增大感受野范围。其他部分均采用无参数的模型。

损失函数

损失函数包含两个部分，一个就是正向的预测损失 $\mathcal{L}_{seg}$ ，另一个是PAR操作引入的正则化损失 $\mathcal{L}_{PAR}$ ，计算过程如下
在这里插入图片描述

创新点

采用基于原型网络的结构实现了小样本语义分割任务
设计了PAR方法，充分利用支持集图像信息，提高分割的准确性

算法评价

本文在很大程度上沿用了原型网络的思想，只不过将对一个图片的类别预测，改为了对每个像素的类别进行预测，设计的PAR方法非常有趣，有点类似于立体匹配中的左右一致性检测，由查询集的结果返回去预测支持集的结果，二者可以相互印证，的确是很有创新性的想法。本文还有一个进步，就是支持集中可以包含多个类别的图像，然后可以实现对查询集图像中多个类别物体的分割。我对本文存在的一点疑惑就是关于计算时间的问题，因为对每个像素都计算距离，并预测类别计算量可能会比较大，作者在文中并没有提及如何解决计算复杂度的问题。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。在这里插入图片描述