论文阅读笔记(二)——Mask R-CNN
论文简介
摘要
文章提出了一个概念上简单、灵活、通用的对象实例分割框架。我们的方法有效地检测图像中的对象,同时为每个实例生成一个高质量的分割蒙版。该方法称为Mask R-CNN,它对Faster R-CNN进行了扩展,在现有的边界框识别分支的基础上增加了一个用于预测对象遮罩的分支。Mask R-CNN易于训练并且只在Faster R-CNN添加了很小的开销,并以 5FPS 的速度运行。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在相同的框架下估计人体姿势。我们展示了COCO挑战任务中所有三个轨道的最佳结果,包括实例分割、绑定框对象检测和人关键点检测。没有华丽呼哨的东西(Without bells and whistles),Mask R-CNN在所有任务上都胜过了现存的单一模型,包括2016年COCO挑战赛获奖者。我们希望我们简单有效的方法可以作为坚实的基准,并有助于简化实例识别的未来研究。
论文创新点
- Mask R-CNN在Faster R-CNN基础上添加了用于预测对象遮罩的分支,且只有很小的花销添加,5FPS的运行速度。
- 提出了RoIAligin层去修复错位,保留了精确的空间位置。它提高了mask相对5%-10%的精度。
- 发现Mask和类预测的解耦是必要的,所以为每个类独立预测一个二进制mask,类之间不存在竞争,依靠网络的RoI分类来预测类别。相比于FCNs逐像素多类分类,将分割和