Weakly Supervised Instance Segmentation using Class Peak Response

最新推荐文章于 2022-09-03 11:07:54 发布

jiabro

最新推荐文章于 2022-09-03 11:07:54 发布

阅读量1k

点赞数 2

文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_22549605/article/details/126282753

版权

据说是第一篇关于图像级实例分割的文章...

看了很多关于这篇文章的博客和知乎，总觉得他们没有写清楚最关键的几个问题：例如，怎么从局部极大值点中筛选出峰值？怎么从MCG等传统图像处理方法获得的图像边缘中提取出proposal掩码？

这是我看完这篇文章后最关注的两个问题，论文中也没有详细写明，希望我的回答能给人带来帮助，有不正确的地方欢迎指出。

论文总共分成了三个阶段：1. Peak Stimulation（峰值激活）----产生CPM（类峰值图） 2. Peak Back-propagation （峰值反向传播）---产生PRM（峰值响应图） 3.Weakly Supervised Instance Segmentation（弱监督实例分割）

一、第一个过程：Peak Stimulation（峰值激活）----产生CPM（类峰值图）

输入一张图片到全卷积分类器中，得到20个通道的特征图（源代码中考虑了20个分类）。

接着就是最关键的一个问题了，怎么从特征图中产生峰值？

看完源码才知道，原来是用3*3、步长为1的max pooling在特征图上滑动，得到很多的局部极大值，再用一个中值滤波器在一张特征图上滑动得到中值，将大于中值的那些局部极大值保留下来成为该通道的峰值。（说实话，论文没有详细说明怎么获得的，我一度以为是非常高大上的操作，看了源码之后终于知道为什么论文不详细说明了。）

说一下训练阶段涉及的三个公式

峰值图对应的掩码公式

这个公式大概的意思就是将峰值保留下来并打上掩码1/N，其他区域打上掩码0，这样就会得到一个稀疏矩阵G，如下所示。

N表示峰值个数，c表示某个通道

第二个公式Sc（表示峰值的置信度分数）

Mc是已经产生峰值的特征图，也就是CPM，Mc矩阵大致如下：

所以，将Mc和Gc卷积之后就会得到的Sc推理如下：

第三个公式是作者自己造出来的梯度函数，用这个梯度来训练网络

二、第二个过程：Peak Back-propagation （峰值反向传播）---产生PRM（峰值响应图）

将第一个阶段产生的峰值反向经过第一个过程的分类器的卷积层，得到一张同时具有定位能力和清晰纹理的PRM。这里只将峰值进行反向传播，是因为非峰值区域（负样本）的反向传播对生成一张清晰的PRM没有积极作用，甚至可能压倒正样本（峰值）的特征，同时还能进一步剥离背景和实例对象。反向经过的卷积层可以看成是增强卷积，如下图示，在经过每个卷积层的时候就不断找寻与峰值相关的区域，最后得到一张纹理越来越清晰的PRM。