卷积神经网络——实例分割之Mask R-CNN论文翻译

论文链接
https://arxiv.org/abs/1703.06870

相关论文翻译链接
R-CNN:https://blog.csdn.net/itlilyer/article/details/107190083
Fast R-CNN:https://blog.csdn.net/itlilyer/article/details/107764472
Faster R-CNN:https://blog.csdn.net/itlilyer/article/details/108049850

Mask R-CNN

0. 摘要

我们提出了一个概念上简单、灵活、通用的对象实例分割框架。我们的方法可以高效地检测图像中的目标,同时为每个实例生成一个高质量的分割掩码。该方法,叫做Mask R-CNN,是对Faster R-CNN的扩展,在Faster R-CNN的基础上增加了一个与边框回归分支并行的分支,该分支用来预测目标的掩码。Mask R-CNN训练起来很简单,只在Faster R-CNN基础上增加了少量开销,运行速度为5 fps。此外,Mask R-CNN可以很容易推广到其他任务,例如,允许我们使用同一个框架来实现估计人的姿势。我们展示了在COCO系列挑战中三条赛道的最好成绩,包括:实例分割、边框目标检测、人体关键点检测。在没有花里胡哨的各种招的加持下(这应该指各种数据增强和参数调优),在所有任务上都胜过所有现有的单一模型,包括2016年COCO挑战赛获奖者。我们希望我们简单且有效的方法能够作为一个坚实的基础并有助于简化实例级识别的未来研究。代码获取:https://github.com/facebookresearch/Detectron

在这里插入图片描述

1.绪论

计算机视觉社区在短时间内快速的提升了目标检测和语义分割的精度(社区力量大呀)。很大程度上这些进步是通过一些强大的基线系统驱动的,比如Fast/Faster R-CNN [12, 36]对于目标检测、全卷积网络(FCN)对于语义分割。这些方法在概念上很直观,并具有灵活性和鲁棒性,而且训练和推理速度也很快。我们这项工作的目标是为实例分割开发一个可比较的基线框架。

实例分割具有挑战性,因为它需要正确检测图像中的所有对象,同时还要精确地分割每个实例。因此,它结合了目标检测的经典计算机视觉任务中的元素和语义分割,目标检测的目的是对单个对象进行分类并使用边界框对每个对象进行定位;语义分割的目标是在不区分对象实例的情况下将每个像素分类为一组固定的类别。(如果用常用术语描述,目标检测是使用边框来实现具体物体的检测而不是mask,语义分割是在不区分实例的前提下对每个像素进行分类。因此我们说语义分割既是一种语义也是一种检测个人理解:这里应该是指语义分割只是区分每个像素是不是属于某个物体)。鉴于此,人们可能会认为需要一种复杂的方法来获得良好的结果。然而,我们证明了一个简单、灵活和快速的系统也可以超越先前最先进的实例分割的结果,这是个令人惊讶的系统。

我们的方法,叫做Mask R-CNN,在Faster R-CNN的基础上扩展了一个新的分支来预测每一个兴趣区域(RoI)的分割掩码(segmentation mask),该分支与已存在的分类和边框回归分支是并行的(图1)。mask分支是一个作用与每一个RoI的小的FCN网络,以像素为单位预测分割掩码。基于Faster R-CNN框架Mask R-CNN易于实现和训练,这样也有助于设计一个灵活度很大的架构。另外,mask分支只增加了很少了计算开销,这就使系统执行速度快和快速的进行实验成为可能。(Faster R-CNN + mask 分支-----> Mask R-CNN,mask的计算开销小)

原则上,Mask R-CNN是Faster R-CNN的直接扩展,但正确构造mask分支对于获得良好结果至关重要。最重要的是,Faster R-CNN并不是为网络输入和输出之间的像素到像素对齐而设计的。(pixel-to-pixel alignment???什么鬼?个人理解:这里像素对齐应该指的针对输入像素输出对应像素的mask,这里涉及到输入和输入的像素之间要对应)这在RoIPool[18,12]为了提取特征如何执行大粒度的空间量化中最为明显,RoIPool是处理实例的核心操作。为了解决不匹配问题,我们提出了一个简单的非量化层,称为RoIAlign,它如实地保留了精确的空间位置。尽管RoIAlign看起来只是一个小的变化,但它的作用却非常明显:它将mask精度提高了10%到50%,定位指标越严格定位越准确roialign还会有更大的收益。其次,我们发现必须将mask和类别预测解耦:我们为每一个类别都预测了一个二元的mask,这个不需要类别竞争,并且依靠网络的RoI分类分支来预测类别。(个人理解: 这里为每个框都预测了所有分类的Mask, 二元指mask里面不是0就是1, 预测的mask与类别预测的框是可以对应的,这样就可以确定具体类别了)。相比之下,FCNs通常执行每像素的多类别分类,它将分割和分类结合在一起,并且根据我们的实验,在实例分割方面效果不佳。(总结一下: 使用RoIAlign替代了RoI pool, 预测mask要与预测类别分开执行)

在没有使用任何技巧trick的前提下,Mask R-CNN已经超越了在此之前COCO上实例分割任务最好的单模型结果,包括2016年竞赛冠军的精心设计的作品。作为Mask R-CNN的副产品,我们的方法在COCO目标检测任务上表现也很出色。在消融实验中,我们评估了多个基础实例,这可以让我们证明我们方法的鲁棒性并且分析受那些核心元素的影响。(不仅分割任务做的好, 检测也很不错 : ))

我的方法在一个GPU上每帧的处理时间是200ms,使用一个单机8卡的GPU设备训练COCO使用一道两天的时间。我们相信快速的训练和测试再加上框架的灵活性和精度,将有助于实例分割的进一步研究。

最后,我们通过在COCO-keypoint数据集上的人体姿势估计任务来展示我们框架的通用性[28]。通过将每个keypoint看做一个one-hot的二元,只需稍加修改 Mask R-CNN可以应用于检测具体实例的姿态。Mask R-CNN超过了2016年COCO keypoint 竞赛的冠军,同时处理速度达到了5fps。因此,更一般的讲Mask R-CNN可以看做是一个识别实例级别物体的灵活框架,并且可以很容易地扩展到更复杂的任务中。

我们已经发布了代码以便于以后的研究。

在这里插入图片描述

2. 相关工作

R-CNN: 基于区域的CNN网络(R-CNN)方法[13]对于边框目标检测来说就是处理有限数量的候选目标区域[42,20],然后分别对每一个RoI使用卷积网络进行评估。通过对R-CNN进行扩展[18,12],允许使用RoIPool处理特征图上的ROI,实现了更快的速度和更高的精确度。Faster R-CNN通过使用区域建议网络(RPN)学习了注意力机制,推动了该流程的进一步发展。Faster R-CNN对于许多后续改进(例如,[38,27,21])具有不错的灵活性和鲁棒性,并且是当前几个基准测试中的领先框架。(介绍了R-CNN的发展)

实例分割: 受R-CNN良好效果的影响,许多实例分割的方法都以segment proposal为基础进行。早期的方法[13,15,16,9]需要将segment proposal重新排序为自下而上的segment。DeepMask[33]及后续的作品[34,8]学着提出了分割候选,这些分割的部分会在后面使用Fast R-CNN进行分类。在这些方法中,分割先于识别执行,这样导致速度慢、精度低。类似的,Dai等人[10]提出了一个复杂的多阶段瀑布式模型(一个阶段跟一个阶段的执行),从预选框中预测分割候选,然后进行分类。相反,我们的方法是基于mask和类别标签的并行预测,这样更简单、更灵活

最近,Li等人[26]将[8]中的分割候选系统和[11]中的目标检测系统结合起来,实现了"全卷积实例分割"(FCIS)。[8,11,26]的共同思想是预测一组位置敏感的全卷积的输出通道(个人理解:输出的这一组通道应该包含了位置相关信息)。这写通道同时处理目标类型、边框和mask,通过这样使系统执行更快。但是FCIS在重叠实例有系统性的错误,并产生虚假边缘(图6),这表明它还不能够彻底解决实例分割的基本困难。(这里简单介绍了一下FCIS系统及存在的问题)

另一系列实例分割的解决方案[23,4,3,29]是受语义分割成功案例的启发。这些方法从每像素分类结果(例如FCN输出)开始,然后尝试将同一类别的像素分割成不同的实例。与这些方法的"分割优先"策略不同,Mask R-CNN基于"实例优先"策略。我们希望未来两种策略能够更好的结合在一起。

3. Mask R-CNN(核心内容,要细看)

Mask R-CNN在概念上很简单:Faster R-CNN针对每一个候选目标都有两个输出:类别标签和边界框偏移;在此基础上我们新增了第三个分支用来输出目标的mask。因此,Mask R-CNN是一个很自然而且直观的想法。但是新增的mask输出与已有的类别和框输出不同,mask输出需要目标更精确的空间位置。接下来,我们将介绍Mask R-CNN的关键元素,包括像素到像素的对齐,这是Fast/ Faster R-CNN的主要缺失部分。(Faster R-CNN + mask = Mask R-CNN)

Faster R-CNN: 我们首先简单回顾一下Faster R-CNN检测网络[36]。Faster R-CNN有两个阶段组成。第一个阶段,叫做区域建议网络(RPN),来处理目标的候选边框。第二个阶段,本质上是Fast R-CNN,使用RoIpool为每一个候选框提取特征值,然后执行分类和边框回归。两个阶段使用的特征可以共享,以便更快地进行推理。关于Faster R-CNN和其他框架的最新综合比较&#x

  • 3
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值