Mask Rcnn英文版论文链接:https://arxiv.org/pdf/1703.06870.pdf
Mask Rcnn项目地址(caffe2):https://github.com/facebookresearch/Detectron
摘要
简介
掩码分支是作用于每个RoI的小FCN,以像素到像素的方式预测分割掩码。Mask R-CNN易于实现和训练,它是基于Faster R-CNN这种灵活的框架的。此外,掩码分支只增加了很小的计算开销。
我们的模型可以在GPU上以200毫秒每帧的速度运行,使用一台有8个GPU的机器,在COCO上训练需要一到两天的时间。我们相信,快速的训练和测试速度,以及框架的灵活性和准确性将促进未来目标分割的研究。
相关工作
Mask R-CNN
掩码表示:掩码表示输入目标的空间布局。因此,与通过全连接(fc)层不可避免地缩成短输出向量的类标签或框偏移不同,提取掩码的空间结构可以通过由卷积提供的像素到像素对应自然地被解决。
这种像素到像素的行为需要RoI特征,它们本身就是小特征图。为了更好地对齐,以准确地保留显式的像素空间对应关系,我们开发出在掩模预测中发挥关键作用的以下RoIAlign层。
ResNet-C4的上层网络包括ResNet的第五阶段(即9层的“res5”),这是计算密集型的。对于FPN,下层网已经包含了res5,因此可以使上层网络包含更少的卷积核而变的更高效。
我们注意到我们的掩码分支是一个非常简单的结构。也许更复杂的设计有可能提高性能,但不是这项工作的重点。
实现细节
超参数的设置与现有的Fast/Faster R-CNN基本一致 。虽然这些设定是在原始论文中是用于目标检测的 ,但是我们发现我们的目标分割系统也是可以用。
训练:与Faster R-CNN中的设置一样,如果RoI与真值框的IoU不小于0.5,则为正样本,否则为负样本。掩码损失函数仅在RoI的正样本上定义。掩码目标是RoI及其对应的真值框之间的交集的掩码。
RPN锚点跨越5个尺度和3个纵横比。为方便消融,RPN分开训练,不与Mask R-CNN共享特征。本文中的,RPN和Mask R-CNN具有相同的下层网络,因此它们是可共享的。
请注意,由于我们仅在前100个检测框中计算掩码,Mask R-CNN将边缘运行时间添加到其对应的Faster R-CNN版本(例如,相对约20%)。
实验:目标分割
主要结果
我们的模型的所有实例都胜过了先前最先进的模型。此外,这些模型中的改进也同样可以应用到Mask R-CNN中。
(图2)Mask R-CNN在COCO测试集上的结果。这些结果基于ResNet-101,掩码AP达到了35.7,并可以5FPS的速度运行。掩码标记为彩色,并且标记出了边框、类别和置信度。
(图4)Mask R-CNN在COCO测试集上更多的结果。使用ResNet-101-FPN,并可以35FPS运行。掩码AP为35.7(表1)。
FCIS+++(上)对比 Mask R-CNN(下,ResNet-101-FPN)。 FCIS在重叠对象上有问题,Mask R-CNN没问题。
消融实验
目标检测结果
速度
虽然Mask R-CNN很快,但我们注意到,我们的设计并没有针对速度进行优化,可以实现更好的速度/精度平衡,例如,通过改变图像尺寸和候选数量,这超出了本文的范围。
Mask R-CNN人体姿态估计
我们注意到,我们的系统利用了人类姿态的最小领域知识,因为实验主要是为了证明Mask R-CNN框架的一般性。我们期望领域知识(例如,建模结构)将是我们简单方法的补充,但这超出了本文的范围。
人体姿态估计实验:使用ResNet-50-FPN评估人体关键点的AP()。我们也尝试了ResNet-101,不过效果差不多,可能是因为更深层次的模型需要更多的训练数据,但是这个数据集相对较小。
我们的结果(62.7 )比使用多级处理流水线的COCO 2016关键点检测获胜者高出0.9个点。我们的方法要简单得多,速度更快。
我们还调查了RoIAlign对关键点检测的影响,如下表(表6)所示:(RoIAlign与RoIPool在minival上关键点检测。)
鉴于Mask R-CNN提取目标框,掩码和关键点的有效性,我们期望它也可以成为其它目标级任务的有效框架。
Cityscapes上的实验
人骑手小汽车卡车公交车火车摩托车自行车17.9k1.8k26.9k0.5k0.4k0.2k0.7k3.7k该任务的目标分割性能由和COCO一样的掩码AP(在IoU阈值上平均)来测量,也包括(即,IoU为0.5的掩码AP)。
结果:我们在测试集和验证集上,将我们的结果与其它主流方法进行了比较,如下表(表7)所示:
Cityscapes的结果示例如下图(图7)所示:(Mask R-CNN在Cityscapes的测试结果(32.0 AP)。右下图出错。)
参考文献
R. Girshick. Fast R-CNN. In ICCV, 2015.
P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to segment object candidates. In NIPS, 2015.
K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.
S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016.
M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. In CVPR, 2017.