论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

论文题目:基于像素间关系的弱监督语义分割(Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations)

论文来源:2019 [CVPR] http://arxiv.org/pdf/1904.05044

目录

 

一、简介

二、网络模型

1、整体框架

2、基础网络

3、IRNet

三、训练数据的获取

四、损失函数的设计

五、网络输出与后续处理

1、class boundary map

2、类未知实例图的生成

3、random Walk

六、结语


一、简介

       论文提出了一种基于图像级分类标签的弱监督实例分割方法。该方法的基本思路是:首先训练分类网络(论文中为ResNet50),得到类激活图(CAM图)。然而CAM图本身既不能区分不同的实例,也不能发现具有精确边界的完整实例区域。因此论文设计了一个具有两个分支的IRNet,根据CAM图的置信区域,学习实例的中心偏移(displacement)和类边界图(class boundary map),并结合中心偏移和类边界图,根据Random walk算法,获取相对完成的实例区域。

二、网络模型

1、整体框架

      如图所示,论文设计的网络整体框架由三个分支构成:分别是分类网络用于获取CAM图(得到种子区域)、IRNet的Displacement估算网络(获取Expand的依据)和ClassBoundary估计类边界(用于限定扩展的约束)。

2、基础网络

      论文基础网络采用的是ResNet50网络。利用预训练模型,在数据集上,根据类标签,训练分类网络并得到CAM图。同时将ResNet50的不同stage的输出作为IRNet的每一个level的输入。

      

3、IRNet

     IRNet的基本结构如下。其中level2-level5分别对应ResNet50的conv2-conv5(其中conv5的下采样改为1,使其与conv4的size一致)。同时,根据代码IRnet中的level1即为上图中的conv1+max pooling构成。此外,整个网络的输出size统一到conv3(28*28)而非论文中的1/16。因此,level1和level2需要下采样,而level4和level5上采用。

     

三、训练数据的获取

      有了上图的网络模型后,如何获取可信的训练数据成为网络学习的关键。注意论文的弱监督学习已有标记仅有图片类标签。因此,论文从CAM图出发,通过对CAM前景、背景的阈值化、DenseCRF运算得到confident area,然后从该区域中r范围(r=10像素)内选取若干个点对。用于训练IRNet。如下图所示为获取confident area的基本流程。

四、损失函数的设计

     两个分支通过最小化如式(9)所示的损失函数联合训练。

   其中,displacement loss函数为:

  

        

   其中

     

      前景displacement loss基于指向同一中心的像素点坐标+偏移量相等的这一基本观察得到。即:如果两个像素点属于同一类,它们会指向同一个中心点,那么最小化xj-xi与D(xi)-D(xj)的L1-loss。对于背景来说,其中心点不固定,因此在背景像素点对中,取消了对指向同一中心点的约束。

    而对于boundary分支的损失函数设计则是基于如果两个像素对之间有boundary,那么它们的语义亲密度必然会低(不属于一个类别)。因此,论文采用像素点对语义亲密度来学习boundary。

五、网络输出与后续处理

1、class boundary map

     如下图所示,为IRnet学习出的class boundary map。图中较好的勾勒除了类的边界。

                

2、类未知实例图的生成

    类未知实例图生成的关键是对displacement map中心的估计(有了中心点后,指向同一中心的像素点属于一类,这仅是对选出的像素点对来说,后面还需要根据语义亲密度传播到其它区域)。然而,根据网络输出的偏移计算的中心点将比较分散(不可能刚好指向具体的点),因此论文通过迭代的方式(迭代200次)来进行优化求解。迭代公式为:

迭代效果(图片对齐有问题,但迭代后中心点的聚集性还是清晰可见)

 

3、random Walk

   最后就是利用random walk根据亲密度矩阵对根据中心点得到的instance map进行领域传播。传播是注意对边界区域的抑制(这点公式理解的不是很透彻,有看到的亲们请不吝赐教)。下图是经过8次传播的效果图(论文中说256次,但代码中实际是8次。其实每次计算量很大,[h*w,h*w]维度的矩阵乘法运算)。

    

六、结语

    整体来看,论文巧妙地利用了置信区域内像素点对间关系的建立(语义亲密度、同一类别指向同一中心的假设),实现了基于弱监督的语义分割。它较为完整了反应了弱监督语义分割中一类典型思路seed、expand和contrain的思路。

   

     

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值