Abstract
1. 图像的目标检测与生成高质量的分割掩码同时进行
2. 基于Faster R-CNN(相同框架),为每个RoI添加一个预测目标分割掩码的分支(与已存在的classification和bounding box regression分支并行),即FCN
3. 易于推广到其他任务,比如人类姿态估计(相同框架)
4. 贡献:instance segmentation、bounding-box object detection、person keypoint detection
Instance segmentation
挑战:要求正确的目标检测与精确的实例分割
结合了传统计算机视觉目标检测任务的元素:对独立的目标进行分类、用边界框对目标进行定位、用语义分割对每个像素进行分类
Faster R-CNN输入和输出之间的像素并不对齐,因为RoI Pooling只对特征提取执行粗糙的空间量化
Mask R-CNN的RoIAlign可以保存精确的空间位置,提高了mask accuracy,分离了mask和分类(为每类独立的预测一个binary mask)
Faster R-CNN
1. 通过RPN生成candidate object bounding boxes
2. RoIPool从每个candidate box中提取features,然后进行classification和bounding-box regression(两个输出)
Mask R-CNN
1. 同Faster R-CNN第一步
2. 与以上第二步类似,每个RoI额外输出一个binary mask(三个输出)
multi-task loss
L = Lcls + Lbox + Lmask
RoIPool
作用:从每个RoI中提取一个小的feature map
实施:首先将浮点数RoI量化为feature map离散的值,然后将量化的RoI细分为量化的空间bin,最后将每个bin覆盖的特征值聚合(通常max pooling)
缺点:这些量化引入了RoI和提取feature的不一致,对预测pixel-accurate masks有很大的负面影响
RoIAlign
方法:移除了RoIPool的量化操作,并将提取的特征与输入对齐
Human Pose Estimation
方法:将key-point的位置建模为一个one-shot mask,并采用Mask R-CNN预测K个masks(与key-point对应)
修改:分割阶段,每个key-point的训练目标是一个one-shot的m×m binary mask,并且只有一个像素标记为前景