Mask R-CNN翻译

最新推荐文章于 2022-09-26 17:17:34 发布

WangKingJ

最新推荐文章于 2022-09-26 17:17:34 发布

阅读量732

点赞数 1

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/WangKingJ/article/details/102560782

版权

Abstract我们提出了一个概念简单、灵活和通用的概念对象实例分割框架。我们的方法有效地检测图像中的对象，同时为每个实例生成高质量的分割掩码。这种方法称为Mask R-CNN，扩展速度更快，通过添加一个分支来预测一个对象掩码，与现有分支并行，用于边界框识别。Mask R-CNN是简单的训练，相对于Faster-RCNN只增加了一个小的开销，每秒5帧。此外,Mask R-CNN很容易推广到其他任...

摘要由CSDN通过智能技术生成

Abstract

我们提出了一个概念简单、灵活和通用的概念对象实例分割框架。我们的方法有效地检测图像中的对象，同时为每个实例生成高质量的分割掩码。这种方法称为Mask R-CNN，扩展速度更快，通过添加一个分支来预测一个对象掩码，与现有分支并行，用于边界框识别。Mask R-CNN是简单的训练，相对于Faster-RCNN只增加了一个小的开销，每秒5帧。此外,Mask R-CNN很容易推广到其他任务中，例如，允许我们在相同的框架中估计人类的姿态。我们显示的结果，在所有三个的可可套件挑战，包括实例分割，边界框对象检测和人的关键点检测。没有技巧，在所有的条目中，Mask R-CNN优于所有现有的，单一模式的模型，包括COCO 2016挑战
赢家。我们希望我们的简单和有效的方法将会作为一个坚实的基础，有助于缓解未来的研究实例级的认可。将提供代码。

1、introduction

在短时间内，视觉社区很快的改进了物体检测和语音分割的结果。在很大程度上，这些提升是在基础的系统的推动下提升的，例如用于图像检测的Fast-RCNN或Faster-RCNN，和用于语义分割的全卷积网络。这些方法在概念上是直观的，并且具有灵活性和健壮性，训练和推理都很快。在这项工作中，我们的目标是开发一个可比较的实例分割框架。

实例分割具有挑战性，因为它需要正确地检测图像中的所有对象，同时精确地分割每个实例。因此，它包含了传统的计算机视觉中的检测任务，目标是对单个对象进行分类，定位每一个边界框然后进行语义分割。
目标是对于每一个像素，将其分类的一系列的没有区分对象实例的类别当中。基于此，人们可能会认为需要复杂的方法才能获得良好的结果。然而，我们展示了一个令人惊讶的简单、灵活和快速的系统，它超越了之前的最先进的实例分割结果。
在这里插入图片描述

图1 用于实例分割的Mask RCNN网络我们的方法，称为Mask R-CNN，通过在Faster-RCNN上添加一个分支，来预测每一个感兴趣区域（ROI）的分割mask，与现有的分类和边界框回归并行。这个mask的分支就是一个应用于每一个ROI的小的全卷积网络。Mask R-CNN易于实现和训练，它是基于Faster R-CNN这种灵活的框架的。此外，这个mask的分支只增加了小的计算开支，实现一个快速的系统和快速实验。
原则上讲，Mask R-CNN是Faster-RCNN的一个扩展，然而正确的构建mask分支对于正确的结果是至关重要的。更重要的是，Faster-RCNN 不是为了网络输入输出之间的像素对其而设计的，这一点在ROPOOl上尤为明显，事实上的核心操作是支持实例，对特征提取进行空间量化。为了修正偏差，我们提出了一个简单的、没有量化的层，称为ROLALign，它能够保留空间的位置。尽管它看起来是一个微小的变化，ROIAlign有巨大的影响：它将mask的准确性从10%提升到了50%，在更严格的本地量化下得到更大的收益。第二，我们发现分离mask和类的预测是很有必要的：我们独立地预测每个类的二进制掩码，没有类之间的竞争，并依靠网络的RoI分类分支来预测类别。与之相比，FCN通常采用逐像素多类别的分类，它是对图像的分割和分类，在我们的实验中，结果不理想。
没有花哨的东西，Mask R-CNN超越了之前所有的最先进的单一模型在COCO实例分割任务上的结果，包括来自2016年竞赛获胜者的高质量工程作品。作为一个副产品，我们的方法也擅长于COCO对象检测任务。在消融实验中，我们评估了多个基本实例，这使我们能够证明其鲁棒性，并分析核心因素的影响。
我们的模型可以在GPU上以每帧200毫秒的速度运行，而在一台8-GPU机器上进行COCO的训练需要一到两天的时间。我们相信，快速训练和测试速度，以及框架的灵活性和准确性，将有利于和方便未来的研究实例分割。
最后，通过对COCO关键数据集进行人体姿态估计，展示了该框架的通用性。通过将每个关键点视为一个热的二进制掩码，通过最小的修改Mask R-CNN可以应用于检测特定实例的姿态。没有技巧，Mask R-CNN超越了2016年COCO 关键点比赛的冠军，同时以5帧/秒的速度运行。因此，Mask R-CNN可以被更广泛地视为实例级识别的灵活框架，并且可以方便地扩展到更复杂的任务。
我们将发布代码，以方便后来的研究。

2、相关工作

R-CNN: 这个基于区域的CNN（R-CNN）对边界框回归物体检测，是在每个Rol上独立地处理可管理的候选对象区域，和评估卷积网络。R-CNN得到了扩展，允许使用Rol Pool处理特征图上的Rols。这样使其速度快，精度高。Faster R-CNN通过学习区域建议网络（RPN）的注意机制，改进了这个流。Faster R-CNN是灵活的和强健的以许多后续的改进，是目前几个基准中领先的框架。
instance Segmentation： 在RCNN的有效驱动下，许多分割的方法都是在segment proposals的基础上进行的。较早的方法采用自下而上的分割。DeepMask和后续的工作学习提取候选片段，然后Fast R-CNN对它进行分类。在这些方法中，分割先于识别，这将降低准确度。同样的，Dai等人提出的复杂的多阶段级联方法，该方法用于预测边界框提议的分割提议，然后是分类。相反，我们的方法是基于mask的预测和类标签的并行预测，它更加的简单和灵活。
最近，Li等人将segment proposals系统和物体检测系统相结合，实现了全卷机实例分割（FCIS）。

这个相同的想法是去预测一组位置敏感的全卷积的输出通道。这些通道同时强调物体的类别、框和掩码，使系统快速运行。但是FCIS展示了系统的错误在重叠的实例上，还创造了虚假的边缘（图5），表明它受到分割实例的基本挑战。

3、Mask R-CNN

Mask R-CNN在概念上很简单：Faster R-CNN对于每一个候选物体有两个输出，一个类标签，一个边界框偏离；基于此，我们增加了第三个分支输出物体的mask。Mask R-CNN是一个自然而然的，很直观的想法。但是增加的mask 输出和类别还有框的输出不一样，它需要更加提取更精细的对象空间布局。接下来，我们介绍Mask R-CNN的关键要素，包括像素到像素的对齐，这是fast/faster R-CNN主要遗漏的地方。

Faster R-CNN: 我们首先简要回顾一下Faster R-CNN检测器。Faster R-CNN由两个阶段组成。第一个阶段，称为区域提议网络（RPN），建议候选物体边界框。第二阶段，本质上是Fast R-CNN，从每一个候选框中，使用RolPool提取特征，然后进行分类和边界框回归。这两个阶段的特征可以共享，以实现更快的推理，我们建议读者参考【21】，以获得最新的、全面的Faster R-CNN和其他框架之间的比较。

Mask R-CNN: Mask R-CNN 采用相同的两阶段的进程，第一阶段相同（都是RPN）。在第二阶段，平行的预测类和框的偏移，Mask R-CNN 也会为每一个Rol输出一个二进制的掩码。它与最新的系统形成对比，最新的系统的分类都是依赖于mask 预测。我们的方法遵循Faster R-CNN的精神，即并行的运行边界框回归分类和回归（这在很大程度上简化了原始的R-CNN的多级通道）。
在正式的训练过程中，我们在每个采样的Rol上定义了多任务损失为 $L = L_{cls}+L_{box}+L_{mask}$ 。分类损失和边界框回归损失与定义中的相同。对于每一个ROI,这个mask 分支有一个 $Km^2$ 维度的输出，每一个对应于K个类别。基于此，我们应用了每像素的sigmoid，并将mask定义为平均的二进制交叉熵损失。对于与ground-truth类相关的k， $L_{mask}$ 只是定义在第k个mask上（其他的mask的损失不计算损失）。
我们对于 $L_{mask}$ 的定义，允许网络产生mask对于每一个类别不需要类别之间的竞争。我们依赖于专用的分类分支来预测用于选择输出掩码的类标签。这是解耦掩码和类别预测。这与通常将FCNs[29]应用于语义分割的做法不同，后者通常使用每个像素的softmax和多项交叉熵损失。在这种情况下，各个掩码相互竞争。在我们的例子中，和他们不同的是，使用的是每个像素的sigmoid和二进制损失。实验证明，该方法是获得良好的实例分割结果的关键。
Mask Representation: mask编码一个输入物体的空间布局。因此，与不可避免的被全连接层折叠成的短输出向量不同，利用卷积提供的像素对像素的对应关系，可以很自然地提取mask的空间结构。
特别的

最低0.47元/天解锁文章

WangKingJ

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Mask R-CNN翻译

Abstract我们提出了一个概念简单、灵活和通用的概念对象实例分割框架。我们的方法有效地检测图像中的对象，同时为每个实例生成高质量的分割掩码。这种方法称为Mask R-CNN，扩展速度更快，通过添加一个分支来预测一个对象掩码，与现有分支并行，用于边界框识别。Mask R-CNN是简单的训练，相对于Faster-RCNN只增加了一个小的开销，每秒5帧。此外,Mask R-CNN很容易推广到其他任...
复制链接

扫一扫