Mask R-CNN(精简注释版)

Mask R-CNN 是一种用于目标实例分割的简单而强大的框架,它在Faster R-CNN基础上添加了预测目标掩模的分支。通过RoIAlign层解决像素对齐问题,提高了掩模预测的准确性。该方法在COCO挑战赛中表现出色,同时易于扩展到其他任务,如人体姿态估计。
摘要由CSDN通过智能技术生成

参考博客:

https://blog.csdn.net/WZZ18191171661/article/details/79453780

http://blog.leanote.com/post/afanti.deng@gmail.com/b5f4f526490b

论文:https://arxiv.org/abs/1703.06870

翻译:https://blog.csdn.net/q199502092010/article/details/86095823

Mask RCNN

摘要

我们提出了一个概念上简单、灵活以及通用的目标实例分割框架。我们的方法有效地检测图像中的目标,同时为每一个实例生成高质量的分割掩模。这种叫Mask R-CNN的方法通过添加一个与现有边框识别分支并行的、用于预测目标掩模的分支来扩展Faster R-CNN。Mask R-CNN训练简单,相对于Faster R-CNN只增加了很小的开销,运行速度在5fps。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在同一个框架中估计人的姿势。我们在COCO系列挑战赛的全部三个比赛项目中都取得了最佳成绩,包括实例分割、边框目标检测以及人体关键点检测。在没有使用额外技巧的情况下,Mask R-CNN在每个任务上优于所有现有的单一模型实体,包括COCO 2016挑战的获胜者。我们希望我们简单而有效的方法能够成为一个基础的方法,并有助于未来实例级识别的研究。我们将稍后提供代码。

 

在原理上,Mask R-CNN是Faster R-CNN的直接扩展,正确构建掩模分支对于取得好结果是至关重要的。更重要的是,Faster R-CNN不是为网络输入和输出之间的像素对齐而设计的。这一点在RoIPool[13, 9]中最为明显,它实际上是用于处理实例的核心操作,对特征提取执行粗的空间量化。为了修正错位,我们提出了一个简单的,量化无关的层叫做RoIAlign,可以保留精确的空间位置。尽管看似一个很小的变化,RoIAlign起了很大的作用:它能将掩模准确率提高到10%至50%,在更严格的位置度量下显示出更大的收益。再者,我们发现解耦掩模和类预测是至关重要的:在没有类间竞争的情况下,我们为每个类独立的预测二进制掩模。并且依赖于网络的RoI分类分支来预测类别。相比之下,FCN通常执行每像素多类分类,分割和分类同时进行,基于我们的实验,发现它对

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值