Mask-Rcnn论文阅读

Mask R-CNN


前言

记录mask-rcnn论文的阅读笔记或者补充资料。


一、论文翻译

摘要:我们提出了一个概念上简单,灵活和通用的目标实例分割框架。我们的方法可以有效地检测图像中的目标,同时为每个实例生成高质量的分割掩码。称为Mask R-CNN的方法通过添加一个与现有目标检测框回归并行的,用于预测目标掩码的分支来扩展Faster R-CNN。Mask R-CNN训练简单,相对于Faster R-CNN,只需增加一个较小的开销,运行速度可达5 FPS。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在同一个框架中估计人的姿势。我们在COCO挑战的所有三个项目中取得了最佳成绩,包括实例分割,边界框目标检测和人体关键点检测。在没有使用额外技巧的情况下,Mask R-CNN优于所有现有的单一模型,包括COCO 2016挑战优胜者。我们希望我们的简单而有效的方法将成为一个促进未来目标级识别领域研究的坚实基础。我们稍后将提供代码

1. 简介

  目标检测和语义分割的效果在短时间内得到了很大的改善。在很大程度上,这些进步是由强大的基线系统驱动的,例如,分别用于目标检测和语义分割的Fast/Faster R-CNN和全卷积网络(FCN)框架。这些方法在概念上是直观的,提供灵活性和鲁棒性,以及快速的训练和推理。我们在这项工作中的目标是为实例分割开发一个相对有力的框架。
  实例分割是具有挑战性的,因为它需要正确检测图像中的所有目标,同时也精确地分割每个目标。因此,它结合了来自经典计算机视觉任务目标检测的元素,其目的是对目标进行分类,并使用边界框定位每个目标,以及语义分割,其中的目标是将每个像素分类为一组固定的类别,而不区分对象实例。(通常来说,目标检测来使用边界框而不是掩码来标定每一个目标检测,而语义分割以在不区分目标的情况下表示每像素的分类。然而,目标分割既是语义分割,又是另一种形式的检测。)鉴于此,人们可能认为需要一种复杂的方法才能取得良好的效果。然而,我们的研究表明,使用非常简单,灵活和快速的系统就可以超越先前的最先进的目标分割结果。
在这里插入图片描述

  我们的方法称为Mask R-CNN,它通过在每个感兴趣区域(RoI)上添加一个预测分割掩码的分支来扩展Faster R-CNN [36],与现有的用于分类和目标检测框回归的分支并行(图1)。掩模分支是应用于每个RoI的一个小FCN,以像素到像素的方式预测分割掩模。Mask R-CNN易于实现和训练,它是基于Faster R-CNN这种灵活的框架的。此外,mask分支只增加了一个小的计算开销,从而实现了一个快速的系统和快速的实验。
  原理上,Mask R-CNN是Faster R-CNN的直接扩展,而要获得良好的结果,正确构建掩模分支至关重要。最重要的是,Faster R-CNN不是为网络输入和输出之间的像素到像素对齐而设计的。在《how RoIPool》中提到,实际上,应用到目标上的核心操作执行的是粗略的空间量化特征提取。为了修正错位,我们提出了一个简单的,量化无关的层,称为RoIAlign,可以保留精确的空间位置。尽管是一个看似很小的变化,RoIAlign起到了很大的作用:它可以将掩码准确度提高10%至50%,在更严格的位置度量下显示出更大的收益。其次,我们发现解耦掩码和分类至关重要:我们为每个类独立地预测二进制掩码,这样不会跨类别竞争,并且依赖于网络的RoI分类分支来预测类别。相比之下,FCN通常执行每像素多类分类,分割和分类同时进行,基于我们的实验,对于目标分割效果不佳。
在这里插入图片描述

  Mask R-CNN超越了COCO实例分割任务[28]上所有先前最先进的单一模型结果,其中包括COCO 2016挑战优胜者。作为副产品,我们的方法在COCO目标检测任务上也表现出色。在消融实验中,我们评估多个基本实例,这使我们能够证明其鲁棒性并分析核心因素的影响。
  我们的模型在GPU上可以以每帧200毫秒的速度运行,在COCO上的训练在一台8-GPU机器上需要一到两天的时间。我们相信快速的训练和测试速度,加上框架的灵活性和准确性,将有助于未来实例分割的研究。
  最后,我们通过COCO关键点数据集上的人体姿态估计任务来展示我们框架的通用性。通过将每个关键点视为one-hot二进制掩码,只需要很少的修改,Mask R-CNN可以应用于人体关键点检测。不需要额外的技巧,Mask R-CNN超过了COCO 2016人体关键点检测比赛的冠军,同时运行速度可达5 FPS。因此,Mask R-CNN可以被更广泛地看作是用于目标级识别的灵活框架,并且可以容易地扩展到更复杂的任务。我们已经发布了代码以便于将来的研究。

2. 相关工作

  R-CNN:基于区域的CNN(R-CNN)方法是通过找到一定数量的候选区域,并独立地在每个RoI上执行卷积来进行目标检测的。基于R-CNN的改进,使用RoIPool在特征图上选取RoI,实现了更快的速度和更好的准确性。Faster R-CNN通过使用RPN学习注意

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值