【图像分割论文阅读】Maskab: Instance Segmentation by Refining Object Detection with Semantic

MaskLab2018年发表于CVPR,这是一篇关于实例分割的文章。
论文地址:MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features
作者Liang-Chieh Chen(陈良杰),台湾人。加州大学洛杉矶分校的在读博士(不知道毕业了没),当时作者在谷歌工作。


摘要

文章针对的问题是实例分割,包含目标检测和语义分割两个子任务。文中采用的模型MaskLab包含三个输出:边界检测、语义分割、方向检测。基于fast r-cnn 的object detector精确定位了对象实例的边界框。对于每一个ROI,MaskLab通过结合语义和方向预测产生前向/背景分割。语义分割帮助模型区分包括背景在内的不同语义类别的对象。同时,方向预测使得能够分离同属一个类别的不同实例。(估计每个像素点朝向响应中心的方向)。此外,结合在分割和检测上表现良好的方法。(atrous convolution 以及 hypercolumn)

背景

深度卷积神经网络极大程度的提升了计算机视觉系统任务的性能。特别的,基于FCN的模型在目标检测、语义分割等任务上表现出色。最近,研究者们开始研究更加具有挑战性的任务—实例分割,其目标是对目标实例进行像素级的精确定位同时解决目标检测以及语义分割
实例分割任务相当困难,目前的做法有两种:

  • 先针对实例边框级检测,而后细化预测得到更加细致的mask segmentation。称作Detection-based methods
  • 在进行像素级目标检测之前,先产生精准的分割。称作Segmentation-based methods
    也就是一种先定位、后分割;另外一种是先分割、后定位。

1)Detection-based methods
前者是基于SOTA模型Fast-RCNN、Faster-RCNN以及R-FCN对mask regions进行分类或者细化预测边界获得掩模。
第一个用于实例分割的全卷积网络FCIS利用位置敏感的inside/outside score maps使得检测过程与实例分割过程同时进行,能够预测每个前景和背景的回归框。FCIS论文地址其示意图如下:

FCISFCIS中通过位置敏感的inside/outside score maps编码前景/背景信息,成功分割每一个预测的边界框中的前景/背景区域。但是由于需要同时编码前后景信息,使得输出的通道数加倍。

2)Segmentation-based methods
基于分割的方法一般采用两阶段处理,包含分割和聚类。先利用分割模块得到像素级预测,后对每个实例对象进行聚类。论文Pixel-level.中先输出三个结果:语义分割、实例中心方向、深度估计。
Pixel-level encoding
然后为实现实例检测利用复杂模板匹配对预测方向进行解码。

作者利用基于检测和基于分割的方法来解决实例分割问题:基于Faster R-CNN并产生额外的两个输出–语义分割实例中心方向。由Faster R-CNN将不同尺寸的实例对象调整为统一大小的尺寸并返回预测边框。对每一个预测的边框的前景/背景的进行语义分割和方向预测。语义分割通过对包含背景类在内的像素级分类信息进行编码以区分不同语义类别的目标。方向预测用来分离同一语义类别的不同实例。

MaskLab

MaskLab中使用ResNet-101作为特征提取器,包含三个模块。使用Faster-RCNN检测到回归框之后,根据回归框的类别选取对应的语义通道并对该区域裁剪,接着结合方向预测再通过 1 × 1 1\times 1 1×1卷积得到粗分割掩码。
MaskLab

语义和方向特征 (Semantic and direction feature)

实例分割基于以下两个回归:
语义分割回归用于逐像素预测标签,这些标签包括背景;
方向预测回归用于预测对应实例的中心

MaskLab中回归框分支可以得到标签和框,语义分割回归根据预测的标签选择对应的通道,然后将对应的回归框进行裁剪。同时,将对应每个方向的方向信息进行集成起来。接着结合裁剪后的语义信息和池化后的方向信息,可以实现前后景的分割。segmentation logits
从图中可以看到,语义分割模块可以将人物与背景和领带分开,进而方向模块就可以得到每个像素对应的中心的方向角。将这个方向信息嵌入原来的特征中,就可以将相邻的两个人物进行区分。

Masklab的主要创新点是使用了方向特征,用于同一类别的实例分割,如同一边框中重叠的人。方向预测回归用于预测每个像素相对于它对应的实例中心的方向,进而用于分割同样语义标签的实例。从图4中我们可以看到,MaskLab将一个框分成了8个模块,其中红色对应$0{}^\circ -45{}^\circ $,依次是绿色、黄色、蓝色、粉红色、淡蓝、深灰和棕色。将裁剪后的语义回归和集成的方向回归并联后经过一个 1 × 1 1\times 1 1×1卷积得到最后的粗分割效果。

另外,这个方向预测是一个类无关的预测,使得模型相对于FCIS更加的紧凑。FCIS输出通道数为 2 × ( K + 1 ) × 49 2\times \left( K+1 \right)\times 49 2×(K+1)×49,其中2代表inside score map和outside score map两种, K + 1 K+1 K+1代表 K K K种目标和背景类,49代表每个score map的大小为 7 × 7 7\times 7 7×7。在MaskLab种输出通道数为 K + 32 K+32 K+32,其中 K K K为目标的种类数,32为用于方向池化所用(8个方向,每个方向4个bin)。

掩模细化(Mask refinement)

受相关工作的影响,MaskLab采用hypercolumn feature[8]对得到的掩模进行了细化。
mask refinement仅用方向和语义回归得到的粗化掩模与ResNet-101中低层次的特征进行并联,在经过一个小型的卷积网络(3层),便可以得到细化后的掩模

可变的裁剪和调正大小(Deformable crop and resize)

相关工作表示:对现有的卷积和池化操作进行合理的变形,可以对物体检测的结果有着较大的提升。本文中修改了物体框分类的关键操作:crop and resize,这同时支持了卷积和池化的可变性。resize首先从特征图中裁剪出一个特定的回归框区域,并通过双线性插值的方法将该区域调整为固定大小,例如图中的 4 × 4 4\times 4 4×4。然后将这个区域分成几个小的区域,如图中的4个 2 × 2 2\times 2 2×2的小区域,再利用其他的小网络计算每个小区域偏置。文中中使用了两次上述操作,即对上述的小区域再分区,再加偏置。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值