Mask R-CNN
0.摘要
本文提出了一个简单、灵活且通用的框架mask rcnn。本框架能够在检测目标的同时为每个目标预测一个mask,相比faster rcnn,只是增加了一个分支而已,且只增加了很少的资源耗费,达到了5fps。同时,本框架也可以容易地泛化达到其他任务,比如说人体关键点检测。在不限时的前提下,本框架在检测、实例分割和人体关键点检测任务上的表现超过了现存的所有单模型框架。
1.引言
近期,视觉任务的结果已经有了快速的提高,比如目标检测和语义分割。这些进步很大程度上都是因为有强大的baseline,比如说检测中的fast/faster rcnn和分割中的fcn。本文的目标是开发一个支持实例分割的框架。
实例分割是一个具有挑战性的任务,因为它综合了目标检测和语义分割。目标检测,就是定位目标的位置并且将其分类;语义分割,就是将每一个像素都进行分类,但是不用管目标是什么。考虑到这些,人们可能会觉得要想做好实例分割就得有一个复杂的框架,然而,本文证明了一个简单、灵活并且快速的框架就能超过以前的SOTA。
本框架通过扩展faster rcnn而来,在新加的分支上,使用小型FCN,通过对ROI预测语义mask来达到目的。在获取faster rcnn的前提下,实现和训练mask rcnn是很容易的,以为前者提供了一系列灵活的架构设计。
构建mask分支对结果的好坏是至关重要的。有一点很重要,faster rcnn设计的时候并不是pix to pix的对于input和output。(这一点在ROIPOOL中体现的很明显。ROIPOOL中de facto核心操作执行粗糙的空间量化来进行特征提取。)为了应对这个问题,本文提出了非量化