图像分割“Fully Convolutional Instance-aware Semantic Segmentation”

最新推荐文章于 2024-06-22 22:17:12 发布

cv_family_z

最新推荐文章于 2024-06-22 22:17:12 发布

阅读量2.9k

点赞数 1

分类专栏：图像分割深度学习

本文链接：https://blog.csdn.net/cv_family_z/article/details/72674943

版权

深度学习同时被 2 个专栏收录

105 篇文章 0 订阅

订阅专栏

图像分割

14 篇文章 2 订阅

订阅专栏

论文链接：https://arxiv.org/pdf/1611.07709v1.pdf
代码：https://github.com/daijifeng001/TA-FCN
相关方法
FCN用于语义分割的流程，输入任意尺寸的图像，经过一系列的卷积层，输出每个像素所有语义类别的似然得分，如下图所示：
这里写图片描述

但FCN不是instance-aware的，instance-aware需要检测和分割目标。卷积是平移不变的，同一个像素的响应相同，与上下文位置无关。instance-aware的语义分割是在区域级上操作的，统一像素在不同的区域有不同的语义，如图2所示：
这里写图片描述

主流的instance-aware语义分割方法是用子网络解决问题，分三步：
1. FCN对整图操作，生成中间及共享特征图；
2. 共享特征图的RoI warp到固定尺寸的 per-ROI特征图；
3. 全连接层将per_ROI特征图转为per-ROI 掩码

以上方法存在的缺点：
1. RoI池化损失了空间细节信息
2. fc层对任务过参数化了
3. per-ROI网络计算在ROIs之间不共享，且速度慢，如MNC，花费了80%的时间在最后per-ROI上

参考文献[5]中提出instance mask proposal generation，是平移可变的，它使用 $k^2$ 个位置敏感的特征图对应 $k\times k$ 个目标的cell，每个得分代表像素在某位置时属于某目标的概率，集成 $k\times k$ 个cell的得分图得到最终的像素级前景图。方法存在一些缺点，如无语义信息，需要一个检测网络，检测分割任务分离，且方案不是端到端的，输入图像尺寸固定，且图像金字塔扫描耗时，如下图所示：
这里写图片描述

FCIS
基于[5]，论文提出了FCIS，通常的实例级语义分割方法，如
SDS,Hypercolumn,MNC,CFM,MultiPathNet有一个共同的结构，即两个网络用于检测和分割子任务。两个网络的结构，参数，执行顺序随机。作者认为分离的网络没有真正挖掘到两个任务的联系。提出了下图的方法：
这里写图片描述

对于ROI的每个像素，执行两个任务：
1. 检测，判断该像素在某相对位置是否属于目标bbox
2. 分割，判断该像素是否在目标边界内
两个得分inside,outside，三种情况：
1. inside高，outside低，detection+,segmentation+
2. inside低，outside高，detection+,segmentation-
3. 都低，detection-,segmentation-

检测得分之后由整个ROI所有像素似然估计平均池化得到，前景掩码是每个像素分割得分的union。这种方法不包含特征warp,resize，特征及得分图与原始图像保持相同长宽比。

端到端的解决方案如下图所示：
这里写图片描述