Mask R-CNN

最新推荐文章于 2022-04-24 22:28:13 发布

车娜希n

最新推荐文章于 2022-04-24 22:28:13 发布

阅读量463

点赞数

分类专栏：论文解读文章标签： 1024程序员节

本文链接：https://blog.csdn.net/chenaxin/article/details/109265701

版权

Mask R-CNN是一种简单、灵活且快速的对象实例分割框架，它扩展了Faster R-CNN，通过添加一个预测分割掩模的分支。这种方法在COCO挑战赛中表现出色，超越了所有现有单模型的结果，包括对象检测和人体姿态估计。关键创新是RoIAlign层，解决了像素对齐问题，显著提高了掩模精度。

摘要由CSDN通过智能技术生成

https://arxiv.org/abs/1703.06870
在这里插入图片描述

摘要

我们提供了一个概念简单、灵活、通用的对象实例分割框架。我们的方法有效地检测图像中的目标，同时为每个实例生成高质量的分割掩模。该方法被称为Mask R-CNN，它扩展了Faster R-CNN，增加了一个用于预测对象蒙版的分支，与现有的用于边界盒识别的分支并行。Mask R-CNN是简单的训练，只增加一个小开销更快的R-CNN，运行在5帧每秒。此外，Mask R-CNN很容易推广到其他任务，例如，让我们在相同的框架下估计人体姿势。我们展示了COCO挑战套件的所有三条轨迹中最顶端的结果，包括实例分割、boundingbox对象检测和person关键点检测。没有铃铛和哨子，Mask R-CNN优于所有现有的，单一模式的参赛项目在每项任务，包括可可2016挑战的获胜者。我们希望我们简单而有效的方法将作为一个坚实的基线，帮助简化未来在实例级识别方面的研究。代码已提供:https://github.com/ facebookresearch/Detectron。

1 引言

视觉社区在短时间内迅速提高了目标检测和语义分割的结果。在很大程度上，这些进步是由强大的基线系统驱动的，例如Fast/Faster RCNN[12,36]和用于对象检测和语义分割的全卷积网络(FCN)[30]框架。这些方法具有概念直观、效率灵活、训练和推理时间快等优点。我们在这项工作的目标是开发一个类似的启用框架工作实例分割。
实例分割是具有挑战性的，因为它要求正确地检测图像中的所有对象，同时也精确地分割每个实例。因此结合了古典元素从计算机视觉任务的对象检测、目标是单个对象进行分类和定位每一个使用一个边界框,和语义分割,目标是每个像素分类为一组固定的类别没有区分对象实例。鉴于此，人们可能会认为需要复杂的方法才能获得良好的结果。然而，我们证明了一个惊人的简单，灵活，和快速的系统可以超过先进的实例分割结果。
我们的方法,称为Mask R-CNN,通过在每个感兴趣的区域(RoI)添加一个分支预测分割mask延伸Faster R-CNN[36],与现有的并行分支分类和边界框回归(图1)。mask分支是一个小FCN应用于每一个RoI,预测在一个像素的像素分割掩模的方式。Mask R-CNN是简单的实现，在给定的Faster R-CNN框架上预测，这有利于广泛的灵活的架构设计。此外，掩码分支只增加了很小的计算开销，从而实现了快速系统和快速实验。
在这里插入图片描述

原则上，Mask R-CNN是Faster R-CNN的直观扩展，但是正确地构造Mask分支对于好的结果至关重要。最重要的是，Faster RCNN不是为网络输入和输出之间的像素到像素对齐而设计的。这一点在RoIPool[18, 12]中最为明显，RoIPool[18, 12]实际上是处理实例的核心操作，它为特征提取执行粗略的空间量化。为了解决这个问题，我们提出了一个简单的、没有量化的层，称为RoIAlign，它忠实地保留了精确的空间位置。尽管是一个看起来很小的变化，但RoI Align却有很大的影响:它将掩码精度提高了10%到50%，在更严格的本地化指标下显