1. 摘要
该论文提出了一个概念上简单、灵活且通用的对象实例分割框架。该方法可以有效地检测图像中的对象,同时为每个实例生成高质量的分割掩模。Mask R-CNN通过在Faster R-CNN上添加一个用于预测对象掩模的分支,它与用于边界框识别的分支并行。Mask R-CNN训练起来很简单,只给Faster R-CNN增加了很小的开销,运行速度为5fps。Mask R-CNN很容易推广到其他任务,比如人体姿势估计。该方法在COCO数据集上进行了实例分割、边界框目标检测、人物关键点检测。
Mask R-CNN
Mask R-CNN通过添加一个用于预测每个感兴趣区域(ROI)上的分割掩模的分支来扩展Faster R-CNN,并与用于分类和边界框回归的现有分支并行。该分支是应用与每个ROI的小型FCN,以像素到像素的方式预测分割掩模。掩模分支仅增加少量计算开销,与Faster R-CNN相比,Mask R-CNN易于实现和训练。
ROIAlign
原则上,Mask R-CNN是Faster R-CNN的直观扩展,但正确构建掩模分支对于获得良好的结果至关重要。最重要的是Faster R-CNN并不是为网络输入和输出之间的像素到像素对齐而设计的。这在RoIPool如何执行粗空间向量化以进行特征提取中最为明显。为了解决未对齐问题,我们提出了一个简单的、无量化的层,称为RoIAlign,它准确地保留了精确位置空间。尽管看似很小的变化,却产生了巨大的影响。
实现
https://www.bilibili.com/video/BV1eA4y1S7WJ/?spm_id_from=333.337.search-card.all.click&vd_source=166ff680595b1539a5baa6cb91d356d9