图像分割“Fully Convolutional Instance-aware Semantic Segmentation”

论文链接:https://arxiv.org/pdf/1611.07709v1.pdf
代码:https://github.com/daijifeng001/TA-FCN
相关方法
FCN用于语义分割的流程,输入任意尺寸的图像,经过一系列的卷积层,输出每个像素所有语义类别的似然得分,如下图所示:
这里写图片描述

但FCN不是instance-aware的,instance-aware需要检测和分割目标。卷积是平移不变的,同一个像素的响应相同,与上下文位置无关。instance-aware的语义分割是在区域级上操作的,统一像素在不同的区域有不同的语义,如图2所示:
这里写图片描述

主流的instance-aware语义分割方法是用子网络解决问题,分三步:
1. FCN对整图操作,生成中间及共享特征图;
2. 共享特征图的RoI warp到固定尺寸的 per-ROI特征图;
3. 全连接层将per_ROI特征图转为per-ROI 掩码

以上方法存在的缺点:
1. RoI池化损失了空间细节信息
2. fc层对任务过参数化了
3. per-ROI网络计算在ROIs之间不共享,且速度慢,如MNC,花费了80%的时间在最后per-ROI上

参考文献[5]中提出instance mask proposal generation,是平移可变的,它使用 k2 个位置敏感的特征图对应 k×k 个目标的cell,每个得分代表像素在某位置时属于某目标的概率,集成 k×k 个cell的得分图得到最终的像素级前景图。方法存在一些缺点,如无语义信息,需要一个检测网络,检测分割任务分离,且方案不是端到端的,输入图像尺寸固定,且图像金字塔扫描耗时,如下图所示:
这里写图片描述

FCIS
基于[5],论文提出了FCIS,通常的实例级语义分割方法,如
SDS,Hypercolumn,MNC,CFM,MultiPathNet有一个共同的结构,即两个网络用于检测和分割子任务。两个网络的结构,参数,执行顺序随机。作者认为分离的网络没有真正挖掘到两个任务的联系。提出了下图的方法:
这里写图片描述

对于ROI的每个像素,执行两个任务:
1. 检测,判断该像素在某相对位置是否属于目标bbox
2. 分割,判断该像素是否在目标边界内
两个得分inside,outside,三种情况:
1. inside高,outside低,detection+,segmentation+
2. inside低,outside高,detection+,segmentation-
3. 都低,detection-,segmentation-

检测得分之后由整个ROI所有像素似然估计平均池化得到,前景掩码是每个像素分割得分的union。这种方法不包含特征warp,resize,特征及得分图与原始图像保持相同长宽比。

端到端的解决方案如下图所示:
这里写图片描述

使用ResNet模型,去除最后一层全连接层,仅训练卷积层,使用RPN生成ROIs,从conv5层,生成 2k2×(C+1) 个得分图,计算分割概率图和分类得分。

实验结果
与MNC在COCO上的比较:
这里写图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值