参考博客:
https://blog.csdn.net/WZZ18191171661/article/details/79453780
http://blog.leanote.com/post/afanti.deng@gmail.com/b5f4f526490b
论文:https://arxiv.org/abs/1703.06870
翻译:https://blog.csdn.net/q199502092010/article/details/86095823
Mask RCNN
摘要
我们提出了一个概念上简单、灵活以及通用的目标实例分割框架。我们的方法有效地检测图像中的目标,同时为每一个实例生成高质量的分割掩模。这种叫Mask R-CNN的方法通过添加一个与现有边框识别分支并行的、用于预测目标掩模的分支来扩展Faster R-CNN。Mask R-CNN训练简单,相对于Faster R-CNN只增加了很小的开销,运行速度在5fps。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在同一个框架中估计人的姿势。我们在COCO系列挑战赛的全部三个比赛项目中都取得了最佳成绩,包括实例分割、边框目标检测以及人体关键点检测。在没有使用额外技巧的情况下,Mask R-CNN在每个任务上优于所有现有的单一模型实体,包括COCO 2016挑战的获胜者。我们希望我们简单而有效的方法能够成为一个基础的方法,并有助于未来实例级识别的研究。我们将稍后提供代码。
在原理上,Mask R-CNN是Faster R-CNN的直接扩展,正确构建掩模分支对于取得好结果是至关重要的。更重要的是,Faster R-CNN不是为网络输入和输出之间的像素对齐而设计的。这一点在RoIPool[13, 9]中最为明显,它实际上是用于处理实例的核心操作,对特征提取执行粗的空间量化。为了修正错位,我们提出了一个简单的,量化无关的层叫做RoIAlign,可以保留精确的空间位置。尽管看似一个很小的变化,RoIAlign起了很大的作用:它能将掩模准确率提高到10%至50%,在更严格的位置度量下显示出更大的收益。再者,我们发现解耦掩模和类预测是至关重要的:在没有类间竞争的情况下,我们为每个类独立的预测二进制掩模。并且依赖于网络的RoI分类分支来预测类别。相比之下,FCN通常执行每像素多类分类,分割和分类同时进行,基于我们的实验,发现它对