Mask R-CNN

Abstract

  • 我们提出了一个概念上简单,灵活,通用的对象实例分割框架。我们的方法可以有效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。该方法称为掩模R-CNN,通过添加用于预测与现有分支并行的对象掩模的分支来扩展更快的R-CNN以用于边界框识别。Mask R-CNN很容易训练,只需很少的开销就可以以5 fps的速度加速R-CNN。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在同一框架中估计人体姿势。我们在COCO挑战套件的所有三个轨道中展示了最佳结果,包括实例分割,边界框对象检测和人员关键点检测。没有花里胡哨,Mask R-CNN在每项任务上都超越了所有现有的单一模型条目,包括2016年Coco挑战赛的获胜者。 我们希望我们简单有效的方法将成为一个坚实的基线,并有助于简化未来在实例级认可方面的研究。

Introduction

  • 视觉社区在短时间内迅速改进了对象检测和语义分割结果。 在很大程度上,这些进步是由强大的基线系统驱动的,例如快速/快速RCNN [12,36]和完全卷积网络(FCN)[30]框架分别用于对象检测和语义分割。这些方法在概念上是直观的,并提供灵活性和稳健性,以及快速的培训和推理时间。 我们在这项工作中的目标是为实例细分开发一个可比较的支持框架。
  • 实例分割具有挑战性,因为它需要正确检测图像中的所有对象,同时还要精确地分割每个实例。 因此,它结合了来自对象检测的经典计算机视觉任务的元素,其目标是对各个对象进行分类并使用边界框对每个对象进行定位,以及语义分割,其目标是将每个像素分类为固定的类别集而不区分 对象实例。鉴于此,人们可能期望需要一种复杂的方法来获得良好的结果。 然而,我们表明,一个令人惊讶的简单,灵活,快速的系统可以超越先前的最新实例分割结果。
  • 我们的方法称为Mask R-CNN,通过添加一个分支来预测每个感兴趣区域(RoI)的分割掩码,与现有的分类和边界框回归分支(图1),扩展了更快的R-CNN [36]。。 掩模分支是应用于每个RoI的小FCN,以像素 - 像素方式预测分割掩模。 Mask R-CNN易于实现和训练,因为它提供了更快的R-CNN框架,这有助于广泛的灵活架构设计。 此外,掩盖不可避免地增加了计算能力,实现了快速系统和快速实验。
  • 原则上,掩模R-CNN是快速R-CNN的直观扩展,但正确构建掩模分支对于获得良好结果至关重要。最重要的是,更快的RCNN不是为网络输入和输出之间的像素到像素对齐而设计的。这一点在RoIPool [18,12](参与实例的事实上的核心操作)如何为特征提取执行粗略空间量化方面最为明显。为了解决这个错位,我们提出了一个简单的,无量化的层,称为RoIAlign,它忠实地保留了精确的空间位置。尽管看似微小的变化,但RoIAlign的影响很大:它将掩模精度提高了10%到50%,在更严格的本地化指标下显示出更大的收益。其次,我们发现将掩模和类预测分离是必不可少的:我们独立地预测每个类的二进制掩码,没有类之间的竞争,并依赖于网络的RoI分类分支来预测类别。相比之下
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值