Mask R-CNN

最新推荐文章于 2023-12-17 19:57:30 发布

铿锵的玫瑰

最新推荐文章于 2023-12-17 19:57:30 发布

阅读量584

点赞数

分类专栏：论文大全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LYKymy/article/details/98505935

版权

Abstract

我们提出了一个概念上简单，灵活，通用的对象实例分割框架。我们的方法可以有效地检测图像中的对象，同时为每个实例生成高质量的分割掩码。该方法称为掩模R-CNN，通过添加用于预测与现有分支并行的对象掩模的分支来扩展更快的R-CNN以用于边界框识别。Mask R-CNN很容易训练，只需很少的开销就可以以5 fps的速度加速R-CNN。此外，Mask R-CNN很容易推广到其他任务，例如，允许我们在同一框架中估计人体姿势。我们在COCO挑战套件的所有三个轨道中展示了最佳结果，包括实例分割，边界框对象检测和人员关键点检测。没有花里胡哨，Mask R-CNN在每项任务上都超越了所有现有的单一模型条目，包括2016年Coco挑战赛的获胜者。我们希望我们简单有效的方法将成为一个坚实的基线，并有助于简化未来在实例级认可方面的研究。

Introduction

视觉社区在短时间内迅速改进了对象检测和语义分割结果。在很大程度上，这些进步是由强大的基线系统驱动的，例如快速/快速RCNN [12,36]和完全卷积网络（FCN）[30]框架分别用于对象检测和语义分割。这些方法在概念上是直观的，并提供灵活性和稳健性，以及快速的培训和推理时间。我们在这项工作中的目标是为实例细分开发一个可比较的支持框架。
实例分割具有挑战性，因为它需要正确检测图像中的所有对象，同时还要精确地分割每个实例。因此，它结合了来自对象检测的经典计算机视觉任务的元素，其目标是对各个对象进行分类并使用边界框对每个对象进行定位，以及语义分割，其目标是将每个像素分类为固定的类别集而不区分对象实例。鉴于此，人们可能期望需要一种复杂的方法来获得良好的结果。然而，我们表明，一个令人惊讶的简单，灵活，快速的系统可以超越先前的最新实例分割结果。
我们的方法称为Mask R-CNN，通过添加一个分支来预测每个感兴趣区域（RoI）的分割掩码，与现有的分类和边界框回归分支（图1），扩展了更快的R-CNN [36]。。掩模分支是应用于每个RoI的小FCN，以像素 - 像素方式预测分割掩模。 Mask R-CNN易于实现和训练，因为它提供了更快的R-CNN框架，这有助于广泛的灵活架构设计。此外，掩盖不可避免地增加了计算能力，实现了快速系统和快速实验。
原则上，掩模R-CNN是快速R-CNN的直观扩展，但正确构建掩模分支对于获得良好结果至关重要。最重要的是，更快的RCNN不是为网络输入和输出之间的像素到像素对齐而设计的。这一点在RoIPool [18,12]（参与实例的事实上的核心操作）如何为特征提取执行粗略空间量化方面最为明显。为了解决这个错位，我们提出了一个简单的，无量化的层，称为RoIAlign，它忠实地保留了精确的空间位置。尽管看似微小的变化，但RoIAlign的影响很大：它将掩模精度提高了10％到50％，在更严格的本地化指标下显示出更大的收益。其次，我们发现将掩模和类预测分离是必不可少的：我们独立地预测每个类的二进制掩码，没有类之间的竞争，并依赖于网络的RoI分类分支来预测类别。相比之下

最低0.47元/天解锁文章

铿锵的玫瑰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。