Mask R-CNN完整翻译

最近因为在做毕业设计,需要翻译Mask R-CNN这篇文章,估记录于此。水平有限,若有建议,欢迎提出。

部分参考自:https://alvinzhu.xyz/2017/10/07/mask-r-cnn/#fn:18

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

正文:

摘要
我们提出了一个概念上简单、灵活以及通用的目标实例分割框架。我们的方法有效地检测图像中的目标,同时为每一个实例生成高质量的分割掩模。这种叫Mask R-CNN的方法通过添加一个与现有边框识别分支并行的、用于预测目标掩模的分支来扩展Faster R-CNN。Mask R-CNN训练简单,相对于Faster R-CNN只增加了很小的开销,运行速度在5fps。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在同一个框架中估计人的姿势。我们在COCO系列挑战赛的全部三个比赛项目中都取得了最佳成绩,包括实例分割、边框目标检测以及人体关键点检测。在没有使用额外技巧的情况下,Mask R-CNN在每个任务上优于所有现有的单一模型实体,包括COCO 2016挑战的获胜者。我们希望我们简单而有效的方法能够成为一个基础的方法,并有助于未来实例级识别的研究。我们将稍后提供代码。

1、 简介
视觉社区在短时间内使目标检测和语义分割的效果取得很大提升。在很大程度上,这些提升是由强大的基线系统驱动的,例如用于目标检测的Fast/Faster R- CNN [9, 28]和用于语义分割的全卷积网络(FCN) [23]框架。这些方法在概念上很直观,提供灵活性和鲁棒性,并且训练和推理都很快速。在这项工作中我们的目标是为实例分割开发一个相对可用的框架。

实例分割是有挑战性的,因为它要求正确检测一张图片中所有的目标,同时需要精准的分割每个实例。它因此结合了来自经典计算机视觉任务目标检测的元素,其目的是对每个目标进行分类,并且使用边框对每个目标进行定位。以及语义分割(通常来讲,目标检测使用边框而不是掩模来标定每一个目标检测,语义分割是指在没有区分实例的情况下对每个像素进行分类。但我们注意到,实例分割既是语义分割,又是一种检测的形式。)其目标是将每个像素分类为一类固定的类别,而不区分对象。鉴于这种情况,人们可能认为需要一种复杂的方法才能取得较好的结果。然而,我们惊讶的发现一种简单、灵活以及快速的系统能够超越之前最先进的实例分割的结果。

我们把这种方法称为Mask R-CNN,它通过在每个感兴趣区域(RoI)上添加一个分支来预测分割掩模,继承自Faster R-CNN [28],这个分支与现有的分类和边框回归并行。如图1所示:

这里写图片描述

掩模分支是作用于每个感兴趣区域(RoI)的小全卷积神经网络(FCN),以像素到像素到方式预测分割掩模。Mask R-CNN是基于Faster R-CNN的,它易于实现和训练,并且为广泛灵活的架构设计提供了便利。此外,掩模分支只增加了一个小的计算开销,使快速系统和快速实验成为可能。

在原理上,Mask R-CNN是Faster R-CNN的直接扩展,正确构建掩模分支对于取得好结果是至关重要的。更重要的是,Faster R-CNN不是为网络输入和输出之间的像素对齐而设计的。这一点在RoIPool[13, 9]中最为明显,它实际上是用于处理实例的核心操作,对特征提取执行粗的空间量化。为了修正错位,我们提出了一个简单的,量化无关的层叫做RoIAlign,可以保留精确的空间位置。尽管看似一个很小的变化,RoIAlign起了很大的作用:它能将掩模准确率提高到10%至50%,在更严格的位置度量下显示出更大的收益。再者,我们发现解耦掩模和类预测是至关重要的:在没有类间竞争的情况下,我们为每个类独立的预测二进制掩模。并且依赖于网络的RoI分类分支来预测类别。相比之下,FCN通常执行每像素多类分类,分割和分类同时进行,基于我们的实验,发现它对实例分割效果不佳。

没有额外的技巧,Mask R-CNN超越了COCO实例分割任务[22]上所有先前最先进的单一模型的结果,包括来自2016年大赛冠军的大量作品。作为一个副产品,我们的方法也优于COCO目标检测任务。在对照实验中,我们评估多个基本实例,这使我们能够证明其鲁棒性并分析关键因素的影响。

我们的模型在GPU上以200ms每帧的速度运行,使用一台有8个GPU的机器,在COCO上训练需要一到两天的时间。我们相信,快速训练、测试速度以及框架的灵活性和准确性将会促进未来在实例分割的研究。

最后,我们通过在COCO关键点数据集[22]上的人体姿势估计任务来展示我们框架的通用性。通过把每个关键点视为一个one-hot二进制掩模(one-hot binary mask),只需要很少的修改,Mask R-CNN就可以应用于检测特定的姿势。没有额外的技巧,Mask R-CNN超过了COCO 2016关键点竞赛的获胜者,同时运行速度达到了5FPS,因此,Mask R-CNN可以被广泛的看作是用于实例级识别的灵活框架,并且可以容易的扩展到更复杂的任务。

我们将会发布代码以促进未来的研究。

2、 相关工作
R-CNN:区域卷积神经网络(R-CNN)[10]是通过找到一定数量的候选目标区域[32,15],并且在每个RoI上单独的执行卷积网络[19,18]来进行边框目标检测。基于R-CNN的改进[13,9],使用RoIPool在特征图上选取RoIs可以更快和更准确。Faster R-CNN[28]通过使用区域建议网络(RPN)学习注意机制来产生候选框。还有后续的对Faster R-CNN灵活性和鲁棒性的改进(如[29,21,16]),这是在当前的几个基准测试中领先的框架。

目标分割:在R-CNN有效的驱动下,实例分割的很多方法都是基于分割建议(segment proposals)的。早期的方法[10,11,12,6]依赖于自下而上的分割[32,2]。DeepMask[26]和[27,5]通过学习提出分割候选区(segment candidates ),然后由Fast R-CNN进行分类。在这些方法中,分割先于识别,速度慢并且准确率低。Dai[7]等人提出了一个复杂的多级级联,通过从边框建议中预测分割建议(segment proposals),然后进行分类。相反的,我们的方法并行的进行掩模和类标签的预测,更简单和灵活。

最近,Li[20]等人将[5]中的分割建议系统和[8]中的目标检测系统进行了“全卷积实例分割(FCIS)”的结合。在[5,8,20]中的共同想法是用全卷积预测一组位置敏感的输出通道。这些通道同时处理目标分类、边框和掩模,这使系统变得更快。但是FCIS在重叠实例上出现系统错误并且产生虚假边缘(图5)。这表明它受到了分割实例的基本困难的挑战。

3、 Mask R-CNN
Mask R-CNN概念简单:Faster R-CNN为每个候选目标输出一个类标签和一个边框偏移量。为此,我们添加了一个输出目标掩模的第三条分支。因此,Mask R-CNN是一个自然且直观的例子。但是,附加的掩模输出与类输出和边框输出不同,需要提取对象更精细的空间布局。接下来,我们将会介绍Mask R-CNN的关键特点,包括像素到像素的对齐,这是Fast/Faster R-CNN所不具备的关键点。

Faster R-CNN:我们首先简单回顾一下Faster R-CNN探测器[28],Faster R-CNN由两级组成。第一级称为区域建议网络(RPN),其目的是提出候选目标边框。第二级&#x

  • 33
    点赞
  • 158
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值