文章目录
Mask R-CNN论文阅读笔记2017
Abstract
我们针对目标实例分割提出了一个概念简单、灵活的通用框架。我们的方法可以有效监测图像中的目标,同时对每个目标实例生成一个高质量的分割掩膜。**我们的方法叫做Mask R-CNN,它将Faster R-CNN扩展,与现有的bbox识别分支平行,添加了一个分支来预测目标的掩膜。**Mask R-CNN很容易训练,对于Faster R-CNN只增加了一些计算,可以达到5fps。而且,它非常容易移植到其他任务上,比如在同一个框架下进行位姿估计。我们在COCO的三项中都取得了top成绩,分别是实例分割、bbox目标检测以及人的关键点检测。没有使用其他tricks,Mask R-CNN在每项任务都超过了所有现存的单模型。我们希望我们这种简单有效的方法可以作为baseline,来帮助实例等级的识别任务。
1. Introduction
最近短期时间内,目标检测和语义分割等视觉任务的结果在快速提升。大的方面,这些提升得益于更有力的baseline,比如Faster R-CNN和FCN框架。这些方法在概念上都很直观,并提供了灵活性和鲁棒性,同时有比较快的训练和测试时间。本文的目标是提出一个与之相比的实例分割框架。
实例分割任务是很有挑战的因为它需要对图像中所有目标进行正确检测,同时准确地分割每个实例。**因此,它组合了传统的目标检测任务(目标是使用bbox定位每个目标)和语义分割任务(目标是对每个像素进行分类,不需要区分目标个体)。**既然如此,可能有人认为需要一个复杂的方法才可以达到很好的效果,然而,我们使用一个简单、灵活、快速的系统就可以超过之前的SOTA实例分割结果。
我们的方法,Mask R-CNN,将Faster R-CNN扩展,增加了一个分支来在每个RoI上预测分割掩模令这个分支与原来的分类和bbox回归分支是平行的,见图1。
mask分支是一个小的FCN,应用在每个RoI上,逐像素预测分割的掩模。Mask R-CNN可以很简单应用在Faster R-CNN框架上,并进行训练,这有助于多种灵活的网络结构设计。另外,mask分支值增加了很少的计算量,这使得系统仍是快速的。
原则上来说,Mask R-CNN是对Faster R-CNN的一种扩展,然而正确地构建mask分支是至关重要的。**更重要