论文笔记二：Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

最新推荐文章于 2023-03-31 10:42:23 发布

snail82

最新推荐文章于 2023-03-31 10:42:23 发布

阅读量2.1k

点赞数 4

分类专栏：深度学习文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/snail82/article/details/114648006

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文题目：基于像素间关系的弱监督语义分割（Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations）

论文来源：2019 [CVPR] http://arxiv.org/pdf/1904.05044

一、简介

论文提出了一种基于图像级分类标签的弱监督实例分割方法。该方法的基本思路是：首先训练分类网络（论文中为ResNet50），得到类激活图（CAM图）。然而CAM图本身既不能区分不同的实例，也不能发现具有精确边界的完整实例区域。因此论文设计了一个具有两个分支的IRNet，根据CAM图的置信区域，学习实例的中心偏移（displacement）和类边界图（class boundary map），并结合中心偏移和类边界图，根据Random walk算法，获取相对完成的实例区域。

二、网络模型

1、整体框架

如图所示，论文设计的网络整体框架由三个分支构成：分别是分类网络用于获取CAM图（得到种子区域）、IRNet的Displacement估算网络（获取Expand的依据）和ClassBoundary估计类边界（用于限定扩展的约束）。

2、基础网络

论文基础网络采用的是ResNet50网络。利用预训练模型，在数据集上，根据类标签，训练分类网络并得到CAM图。同时将ResNet50的不同stage的输出作为IRNet的每一个level的输入。

3、IRNet

IRNet的基本结构如下。其中level2-level5分别对应ResNet50的conv2-conv5（其中conv5的下采样改为1，使其与conv4的size一致）。同时，根据代码IRnet中的level1即为上图中的conv1+max pooling构成。此外，整个网络的输出size统一到conv3（28*28）而非论文中的1/16。因此，level1和level2需要下采样，而level4和level5上采用。

三、训练数据的获取

有了上图的网络模型后，如何获取可信的训练数据成为网络学习的关键。注意论文的弱监督学习已有标记仅有图片类标签。因此，论文从CAM图出发，通过对CAM前景、背景的阈值化、DenseCRF运算得到confident area，然后从该区域中r范围（r=10像素）内选取若干个点对。用于训练IRNet。如下图所示为获取confident area的基本流程。

四、损失函数的设计

两个分支通过最小化如式（9）所示的损失函数联合训练。

其中，displacement loss函数为：

其中

前景displacement loss基于指向同一中心的像素点坐标+偏移量相等的这一基本观察得到。即：如果两个像素点属于同一类，它们会指向同一个中心点，那么最小化xj-xi与D(xi)-D(xj)的L1-loss。对于背景来说，其中心点不固定，因此在背景像素点对中，取消了对指向同一中心点的约束。

而对于boundary分支的损失函数设计则是基于如果两个像素对之间有boundary，那么它们的语义亲密度必然会低（不属于一个类别）。因此，论文采用像素点对语义亲密度来学习boundary。

五、网络输出与后续处理

1、class boundary map

如下图所示，为IRnet学习出的class boundary map。图中较好的勾勒除了类的边界。

2、类未知实例图的生成

类未知实例图生成的关键是对displacement map中心的估计（有了中心点后，指向同一中心的像素点属于一类，这仅是对选出的像素点对来说，后面还需要根据语义亲密度传播到其它区域）。然而，根据网络输出的偏移计算的中心点将比较分散（不可能刚好指向具体的点），因此论文通过迭代的方式（迭代200次）来进行优化求解。迭代公式为：

3、random Walk

最后就是利用random walk根据亲密度矩阵对根据中心点得到的instance map进行领域传播。传播是注意对边界区域的抑制（这点公式理解的不是很透彻，有看到的亲们请不吝赐教）。下图是经过8次传播的效果图（论文中说256次，但代码中实际是8次。其实每次计算量很大，[h*w,h*w]维度的矩阵乘法运算）。

六、结语

整体来看，论文巧妙地利用了置信区域内像素点对间关系的建立（语义亲密度、同一类别指向同一中心的假设），实现了基于弱监督的语义分割。它较为完整了反应了弱监督语义分割中一类典型思路seed、expand和contrain的思路。

snail82

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
4
评论
论文笔记二：Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

论文题目：基于像素间关系的弱监督语义分割（Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations）论文来源：2019 [CVPR]http://arxiv.org/pdf/1904.05044一、简介论文提出了一种基于图像级分类标签的弱监督实例分割方法。该方法的基本思路是：首先训练分类网络（论文中为ResNet50），得到类激活图（CAM图）。然而CAM图本身既不能区分不同的实例...
复制链接

扫一扫

专栏目录