Fully Convolutional Instance-aware Semantic Segmentation
主要基于:
- FCNs for Semantic Segmentation 基于FCN的语义分割. 传统FCNs卷积具有平移不变性, 但实例分割需要平移可变.
- instance mask proposal 实例 mask 候选
现阶段instance semantic segmentation 方法:
1. 整张图像进行FCN处理,得到中间的共享feature maps;
2. 对于得到的feature maps,采用pooling层将各个 region of interest (ROI)变换到固定尺寸的per-ROI feature maps;
3. 在网络最后,采用一个或多个全连接层(fully-connected(fc) layer)将per-ROI feature maps转换成per-ROI masks. 这里的平移不变形是在 fc 层实现的.
现阶段instance semantic segmentation 存在的问题:
- ROI pooling 进行 feature warping 和 resizing变换,以确保fc层有固定尺寸的输入,导致feature空间特征信息损失. 对于大物体的segmentation影响较大;
- fc层参数较多,容易过拟合;
- 最后处理时,每个ROI都要过一次fc层,ROIs间不能进行参数共享,耗时多.
- a. 基于FCN的语义分割
- b. InstanceFCN的实例mask proposal. 该方法将传统FCNs方法的平移不变的score maps扩展成 position-sensitive score maps. 其不足之处在于,不能直接得到语义类别,需要添加类别分类网络. mask预测和类别预测是分开的,也是非End-to-End的. 另外,采用方形的、固定尺寸(224×224)的平滑窗口处理,并采用十分耗时的image pyramid scanning来寻找不同尺度下的实例. 其结构如下:
- c. Fully Convolutional Instance-aware Semantic Segmentation(FCIS)。 扩展了InstanceFCN. 底层的卷积表示和score maps是全部共享参数的,以进行mask预测和类别估计. End-to-End的.
FCIS
Position-sensitive Score Map Parameterization
FCNs中,训练分类器来预测每一个像素点归属于某个物体类别的概率. FCNs具有平移不变性,比如图片中的物体不管位于那个位置,都会被分类为该物体. FCNs不能辨别独立的物体实例, 比如相同的像素点,对于一个物体是前景,但对于其它的物体,该像素点是后景.
每个类别的单个score map不足以进行区分.
在InstanceFCN中,引入平移可变性,采用全卷积网络来获得实例mask proposal.
采用 k2 k 2 position-sensitive score maps,对应了 k×k k × k 对物体的均分单元格. 如(b).
每个score map具有原始图片的相同空间范围,分辨率较低,比如16×.
每个score表示在相对位置中,像素点属于某个物体实例的概率. 如(b)中,第一个map是左上角位置.
在训练和推断过程,对于一个固定尺寸的方形平滑窗,224×224,其像素级的前景概率map是通过组合(copy-paste, 复制粘贴)对应score maps的