1. Introduction
实例分割的挑战性在于它需要正确地检测出图像中物体的位置的同时对每一个实例精确地分割。因此这是一个结合了CV领域中目标检测(分类并且定位图片中的物体)和实例分割(将图像中每一个像素点分类,且同一个实例中的像素点是一类)的任务。
Mask-RCNN对Faster-RCNN做了扩展,增加了一条分支用于为每一个roi预测分割mask掩模。这个mask分支就是应用在每一个roi上的小型FCN网络,这个mask分支在像素级别上预测出了一个分割mask。这条新增的分支只会增加很少的计算量。
直觉上来说Mask-RCNN只是对Faster-RCNN的一个扩展,然而恰当地建立这个mask分支对于得到好的结果至关重要。更重要的是,Faster-RCNN并没有对网络的输入和输出设计像素点到像素点的对齐。这也是为什么ROIpool只为实例分割提供了粗糙的空间特征。为了解决这种对齐错位,我们提出了一个简单的,无量化的层(quantization-free layer),名叫RoIAlign。它能够忠实地保留确切的空间位置信息。
RoiAlign将mask的准确率从10%提升到了50%,提供了严格的位置度量。其次,我们发现将mask和分类预测解耦很重要:我们为每一个类别独立地预测一个二值化mask,而不是在各个类别中预测,并使用网络的RoI的分类分支预测类别。作为对比,FCN们通常表现出每一个像素点的多类别,这将分割和分类耦合在了一起,这在实例分割任务上表现得不好。
通过在COCO数据集上的人