Mask R-CNN

Mask R-CNN是一种简单、灵活且快速的对象实例分割框架,它扩展了Faster R-CNN,通过添加一个预测分割掩模的分支。这种方法在COCO挑战赛中表现出色,超越了所有现有单模型的结果,包括对象检测和人体姿态估计。关键创新是RoIAlign层,解决了像素对齐问题,显著提高了掩模精度。
摘要由CSDN通过智能技术生成

https://arxiv.org/abs/1703.06870
在这里插入图片描述

摘要

我们提供了一个概念简单、灵活、通用的对象实例分割框架。我们的方法有效地检测图像中的目标,同时为每个实例生成高质量的分割掩模。该方法被称为Mask R-CNN,它扩展了Faster R-CNN,增加了一个用于预测对象蒙版的分支,与现有的用于边界盒识别的分支并行。Mask R-CNN是简单的训练,只增加一个小开销更快的R-CNN,运行在5帧每秒。此外,Mask R-CNN很容易推广到其他任务,例如,让我们在相同的框架下估计人体姿势。我们展示了COCO挑战套件的所有三条轨迹中最顶端的结果,包括实例分割、boundingbox对象检测和person关键点检测。没有铃铛和哨子,Mask R-CNN优于所有现有的,单一模式的参赛项目在每项任务,包括可可2016挑战的获胜者。我们希望我们简单而有效的方法将作为一个坚实的基线,帮助简化未来在实例级识别方面的研究。代码已提供:https://github.com/ facebookresearch/Detectron。

1 引言

视觉社区在短时间内迅速提高了目标检测和语义分割的结果。在很大程度上,这些进步是由强大的基线系统驱动的,例如Fast/Faster RCNN[12,36]和用于对象检测和语义分割的全卷积网络(FCN)[30]框架。这些方法具有概念直观、效率灵活、训练和推理时间快等优点。我们在这项工作的目标是开发一个类似的启用框架工作实例分割。
实例分割是具有挑战性的,因为它要求正确地检测图像中的所有对象,同时也精确地分割每个实例。因此结合了古典元素从计算机视觉任务的对象检测、目标是单个对象进行分类和定位每一个使用一个边界框,和语义分割,目标是每个像素分类为一组固定的类别没有区分对象实例。鉴于此,人们可能会认为需要复杂的方法才能获得良好的结果。然而,我们证明了一个惊人的简单,灵活,和快速的系统可以超过先进的实例分割结果。
我们的方法,称为Mask R-CNN,通过在每个感兴趣的区域(RoI)添加一个分支预测分割mask延伸Faster R-CNN[36],与现有的并行分支分类和边界框回归(图1)。mask分支是一个小FCN应用于每一个RoI,预测在一个像素的像素分割掩模的方式。Mask R-CNN是简单的实现,在给定的Faster R-CNN框架上预测,这有利于广泛的灵活的架构设计。此外,掩码分支只增加了很小的计算开销,从而实现了快速系统和快速实验。
在这里插入图片描述

原则上,Mask R-CNN是Faster R-CNN的直观扩展,但是正确地构造Mask分支对于好的结果至关重要。最重要的是,Faster RCNN不是为网络输入和输出之间的像素到像素对齐而设计的。这一点在RoIPool[18, 12]中最为明显,RoIPool[18, 12]实际上是处理实例的核心操作,它为特征提取执行粗略的空间量化。为了解决这个问题,我们提出了一个简单的、没有量化的层,称为RoIAlign,它忠实地保留了精确的空间位置。尽管是一个看起来很小的变化,但RoI Align却有很大的影响:它将掩码精度提高了10%到50%,在更严格的本地化指标下显

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值