Mask R-CNN翻译

Abstract我们提出了一个概念简单、灵活和通用的概念对象实例分割框架。我们的方法有效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。这种方法称为Mask R-CNN,扩展速度更快,通过添加一个分支来预测一个对象掩码,与现有分支并行,用于边界框识别。Mask R-CNN是简单的训练,相对于Faster-RCNN只增加了一个小的开销,每秒5帧。此外,Mask R-CNN很容易推广到其他任...
摘要由CSDN通过智能技术生成
Abstract

我们提出了一个概念简单、灵活和通用的概念对象实例分割框架。我们的方法有效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。这种方法称为Mask R-CNN,扩展速度更快,通过添加一个分支来预测一个对象掩码,与现有分支并行,用于边界框识别。Mask R-CNN是简单的训练,相对于Faster-RCNN只增加了一个小的开销,每秒5帧。此外,Mask R-CNN很容易推广到其他任务中,例如,允许我们在相同的框架中估计人类的姿态。我们显示的结果,在所有三个的可可套件挑战,包括实例分割,边界框对象检测和人的关键点检测。没有技巧,在所有的条目中,Mask R-CNN优于所有现有的,单一模式的模型,包括COCO 2016挑战
赢家。我们希望我们的简单和有效的方法将会作为一个坚实的基础,有助于缓解未来的研究实例级的认可。将提供代码。

1、introduction

 在短时间内,视觉社区很快的改进了物体检测和语音分割的结果。在很大程度上,这些提升是在基础的系统的推动下提升的,例如用于图像检测的Fast-RCNN或Faster-RCNN,和用于语义分割的全卷积网络。这些方法在概念上是直观的,并且具有灵活性和健壮性,训练和推理都很快。在这项工作中,我们的目标是开发一个可比较的实例分割框架。

 实例分割具有挑战性,因为它需要正确地检测图像中的所有对象,同时精确地分割每个实例。因此,它包含了传统的计算机视觉中的检测任务,目标是对单个对象进行分类,定位每一个边界框然后进行语义分割。
 目标是对于每一个像素,将其分类的一系列的没有区分对象实例的类别当中。基于此,人们可能会认为需要复杂的方法才能获得良好的结果。然而,我们展示了一个令人惊讶的简单、灵活和快速的系统,它超越了之前的最先进的实例分割结果。
在这里插入图片描述

图1 用于实例分割的Mask RCNN网络
 我们的方法,称为Mask R-CNN,通过在Faster-RCNN上添加一个分支,来预测每一个感兴趣区域(ROI)的分割mask,与现有的分类和边界框回归并行。这个mask的分支就是一个应用于每一个ROI的小的全卷积网络。Mask R-CNN易于实现和训练,它是基于Faster R-CNN这种灵活的框架的。此外,这个mask的分支只增加了小的计算开支,实现一个快速的系统和快速实验。
 原则上讲,Mask R-CNN是Faster-RCNN的一个扩展,然而正确的构建mask分支对于正确的结果是至关重要的。更重要的是,Faster-RCNN 不是为了网络输入输出之间的像素对其而设计的,这一点在ROPOOl上尤为明显,事实上的核心操作是支持实例,对特征提取进行空间量化。为了修正偏差,我们提出了一个简单的、没有量化的层,称为ROLALign,它能够保留空间的位置。尽管它看起来是一个微小的变化,ROIAlign有巨大的影响:它将mask的准确性从10%提升到了50%,在更严格的本地量化下得到更大的收益。第二,我们发现分离mask和类的预测是很有必要的:我们独立地预测每个类的二进制掩码,没有类之间的竞争,并依靠网络的RoI分类分支来预测类别。与之相比,FCN通常采用逐像素多类别的分类,它是对图像的分割和分类,在我们的实验中,结果不理想。
 没有花哨的东西,Mask R-CNN超越了之前所有的最先进的单一模型在COCO实例分割任务上的结果,包括来自2016年竞赛获胜者的高质量工程作品。作为一个副产品,我们的方法也擅长于COCO对象检测任务。在消融实验中,我们评估了多个基本实例,这使我们能够证明其鲁棒性,并分析核心因素的影响。
 我们的模型可以在GPU上以每帧200毫秒的速度运行,而在一台8-GPU机器上进行COCO的训练需要一到两天的时间。我们相信,快速训练和测试速度,以及框架的灵活性和准确性,将有利于和方便未来的研究实例分割。
 最后,通过对COCO关键数据集进行人体姿态估计,展示了该框架的通用性。通过将每个关键点视为一个热的二进制掩码,通过最小的修改Mask R-CNN可以应用于检测特定实例的姿态。没有技巧,Mask R-CNN超越了2016年COCO 关键点比赛的冠军,同时以5帧/秒的速度运行。因此,Mask R-CNN可以被更广泛地视为实例级识别的灵活框架,并且可以方便地扩展到更复杂的任务。
 我们将发布代码,以方便后来的研究。
2、相关工作

R-CNN: 这个基于区域的CNN(R-CNN)对边界框回归物体检测,是在每个Rol上独立地处理可管理的候选对象区域,和评估卷积网络。R-CNN得到了扩展,允许使用Rol Pool处理特征图上的Rols。这样使其速度快,精度高。Faster R-CNN通过学习区域建议网络(RPN)的注意机制,改进了这个流。Faster R-CNN是灵活的和强健的以许多后续的改进,是目前几个基准中领先的框架。
instance Segmentation: 在RCNN的有效驱动下,许多分割的方法都是在segment proposals的基础上进行的。较早的方法采用自下而上的分割。DeepMask和后续的工作学习提取候选片段,然后Fast R-CNN对它进行分类。在这些 方法中,分割先于识别,这将降低准确度。同样的,Dai等人提出的复杂的多阶段级联方法,该方法用于预测边界框提议的分割提议,然后是分类。相反,我们的方法是基于mask的预测和类标签的并行预测,它更加的简单和灵活。
最近,Li等人将segment proposals系统和物体检测系统相结合,实现了全卷机实例分割(FCIS)。

 这个相同的想法是去预测一组位置敏感的全卷积的输出通道。这些通道同时强调物体的类别、框和掩码,使系统快速运行。但是FCIS展示了系统的错误在重叠的实例上,还创造了虚假的边缘(图5),表明它受到分割实例的基本挑战。

3、Mask R-CNN

 Mask R-CNN在概念上很简单:Faster R-CNN对于每一个候选物体有两个输出,一个类标签,一个边界框偏离;基于此,我们增加了第三个分支输出物体的mask。Mask R-CNN是一个自然而然的,很直观的想法。但是增加的mask 输出和类别还有框的输出不一样,它需要更加提取更精细的对象空间布局。接下来,我们介绍Mask R-CNN的关键要素,包括像素到像素的对齐,这是fast/faster R-CNN主要遗漏的地方。

Faster R-CNN: 我们首先简要回顾一下Faster R-CNN检测器。Faster R-CNN由两个阶段组成。第一个阶段,称为区域提议网络(RPN),建议候选物体边界框。第二阶段,本质上是Fast R-CNN,从每一个候选框中,使用RolPool提取特征,然后进行分类和边界框回归。这两个阶段的特征可以共享,以实现更快的推理,我们建议读者参考【21】,以获得最新的、全面的Faster R-CNN和其他框架之间的比较。

Mask R-CNN: Mask R-CNN 采用相同的两阶段的进程,第一阶段相同(都是RPN)。在第二阶段,平行的预测类和框的偏移,Mask R-CNN 也会为每一个Rol输出一个二进制的掩码。它与最新的系统形成对比,最新的系统的分类都是依赖于mask 预测。我们的方法遵循Faster R-CNN的精神,即并行的运行边界框回归分类和回归(这在很大程度上简化了原始的R-CNN的多级通道)。
 在正式的训练过程中,我们在每个采样的Rol上定义了多任务损失为 L = L c l s + L b o x + L m a s k L = L_{cls}+L_{box}+L_{mask} L=Lcls+Lbox+Lmask。分类损失和边界框回归损失与定义中的相同。对于每一个ROI,这个mask 分支有一个 K m 2 Km^2 Km2维度的输出,每一个对应于K个类别。基于此,我们应用了每像素的sigmoid,并将mask定义为平均的二进制交叉熵损失。对于与ground-truth类相关的k, L m a s k L_{mask} Lmask只是定义在第k个mask上(其他的mask的损失不计算损失)。
 我们对于 L m a s k L_{mask} Lmask的定义,允许网络产生mask对于每一个类别不需要类别之间的竞争。我们依赖于专用的分类分支来预测用于选择输出掩码的类标签。这是解耦掩码和类别预测。这与通常将FCNs[29]应用于语义分割的做法不同,后者通常使用每个像素的softmax和多项交叉熵损失。在这种情况下,各个掩码相互竞争。在我们的例子中,和他们不同的是,使用的是每个像素的sigmoid和二进制损失。实验证明,该方法是获得良好的实例分割结果的关键。
Mask Representation: mask编码一个输入物体的空间布局。因此,与不可避免的被全连接层折叠成的短输出向量不同,利用卷积提供的像素对像素的对应关系,可以很自然地提取mask的空间结构。
 特别的

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值