CV之DL之MaskR-CNN：Mask R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

一个处女座的程序猿

已于 2024-01-04 00:33:55 修改

阅读量1.2w

点赞数 11

分类专栏： DL/R CV/MLM 文章标签： cnn 算法人工智能

于 2018-05-15 22:56:19 首次发布

本文链接：https://blog.csdn.net/qq_41185868/article/details/80330637

版权

DL/R 同时被 2 个专栏收录

396 篇文章 66 订阅

订阅专栏

CV/MLM

255 篇文章 237 订阅

订阅专栏

CV之DL之MaskR-CNN：Mask R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

相关论文

《Mask R-CNN》翻译与解读

地址	论文地址：https://arxiv.org/abs/1703.06870
时间	2017年3月20日
作者	Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick
总结	这篇文章提出了一种新的实例分割方法Mask R-CNN。背景：实例分割任务要求同时正确检测图像中的所有对象，并精确分割每个实例，它结合了对象检测和语义分割两个任务。目前方法通常采用提前预测分割候选再识别，这往往效率低下且精度差。解决方案：Mask R-CNN采用简单而有效的框架，它基于Faster R-CNN方法，在同时预测边界框类别和坐标的基础上，增加一个预测每个区域ROI对应的实例分割掩码的分支。关键技术： (1) RoIAlign层替换RoIPool，消除量化误差，保证特征提取与实例之间的像素对齐。 (2) 每个类独立预测一个二值掩码，而不是采用多分类softmax，解耦了分割和分类预测。 (3) 采用全卷积网络进行像素到像素的掩码预测，而不是将掩码压缩为向量。实验结果：Mask R-CNN在COCO benchmarks上获得状态优秀结果，在实例分割、检测和关键点定位三个任务中都超过之前单模型效果。它运行速度快，训练时间短，且框架灵活可扩展。该文章提出的Mask R-CNN方法通过上述设计，很好地解决了实例分割任务的具体痛点，简单而高效，为该领域研究提供了一个稳定的基线。

Abstract

We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each in-stance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recogni-tion. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, e.g., al-lowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, bounding-box object detection, and person keypoint detection. With-out bells and whistles, Mask R-CNN outperforms all ex-isting, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code has been made available at: https://github.com/facebookresearch/Detectron.

我们提出了一个在概念上简单、灵活且通用的目标实例分割框架。我们的方法在检测图像中的对象的同时，同时生成每个实例的高质量分割掩模。该方法被称为Mask R-CNN，通过在现有的边界框识别分支旁边添加一个用于预测对象掩模的分支，扩展了Faster R-CNN。Mask R-CNN易于训练，在Faster R-CNN的基础上只增加了很小的开销，运行时为5fps。此外，Mask R-CNN易于推广到其他任务，例如在相同框架中估计人体姿势。我们在COCO套件的三个轨道（实例分割、边界框目标检测和人体关键点检测）中展示了最佳结果。没有花哨的技巧，Mask R-CNN在每项任务上都优于所有现有的单模型参赛作品，包括COCO 2016挑战的获奖者。我们希望我们简单而有效的方法将作为一个坚实的基线，并有助于简化将来在实例级别识别领域的研究。代码已经在https://github.com/facebookresearch/Detectron 上开源。

Mask R-CNN的简介

何凯明等人提出了Mask R-CNN ，是一种实例分割的方法。Mask R-CNN获得ICCV2017 Best Paper Award。mask的英文意思是面罩，即对图像进行区域覆盖等操作。作者指出，Faster R-CNN在做下采样和RoI Pooling时都对特征图大小做了取整操作，这种做法对于分类任务基本没有影响，但对检测任务会有一定影响，对语义分割这种像素级任务的精度影响则更为严重。为此，作者对网络中涉及特征图尺寸变化的环节都不使用取整操作，而是通过双线性差值填补非整数位置的像素。这使得下游特征图向上游映射时没有位置误差，不仅提升了目标检测效果，还使得算法能满足语义分割任务的精度要求。

1、实例分割具有挑战性

实例分割具有挑战性，因为它需要正确检测图像中的目标，同时还要精确地分割每个实例。

2、算法改进

>> 一个特点就是 Mask-RCNN 的检测和分割是并行出结果的，而不像以前是分割完了之后再做分类，结果是很 amazing 的。

>> 基础网络的增强：ResNeXt-101+FPN的组合可以说是现在特征学习的王牌了。Mask-RCNN 大体框架还是 Faster-RCNN 的框架，可以说在基础特征网络之后又加入了全连接的分割子网，由原来的两个任务（分类+回归）变为了三个任务（分类+回归+分割）。

>> 分割 loss 的改进，由原来的 FCIS 的基于单像素softmax的多项式交叉熵变为了基于单像素sigmod二值交叉熵。但文章作者确实写到了类间的竞争，二值交叉熵会使得每一类的 mask 不相互竞争，而不是和其他类别的 mask 比较。

>> RoIAlign 层的加入，说白了就是对 feature map 的插值，直接的ROIPooling的那种量化操作会使得得到的mask与实际物体位置有一个微小偏移，个人感觉这个没什么 insight，就是工程上更好的实现方式。

3、实验结果

实例分割掩码AP在COCO test-dev上

Instance segmentation mask AP on COCO test-dev

Mask R-CNN，采用ResNeXt-101-FPN骨干网络时，AP可以达到37.1，效果最好！

COCO目标检测结果

Object Detection Results on COCO 使用ResNet-101-FPN的Mask R-CNN优于所有先前最先进模型的基本变体。 Mask R-CNN using ResNet-101-FPN outperforms the base variants of all previous state-of-the-art models
使用ResNet-101-FPN在COCO 测试图像上Mask R-CNN，并以5 fps的速度运行，使用35.7 mask ap Mask R-CNN on COCO test images, using ResNet-101-FPN and running at 5 fps, with 35.7 mask AP 被相同类别的对象包围——Surrounded by same-category objects
断开连接的对象——Disconnected objects，每个人完整的归为一类，即对非连接目标表现也是不错！
对于小目标，也能识别不错！
失败的样例：检测/分割 Failure: detection/segmentation missing的地方指没有分割出来！
Failure: recognition 识别时候的错误，其实并不是kite风筝！

Mask R-CNN算法的架构详解

DL之MaskR-CNN：Mask R-CNN算法的架构详解(设计思路及其两个引用模型/RoIAlign/损失函数)之详细攻略

https://yunyaniu.blog.csdn.net/article/details/100059812

Mask R-CNN算法的案例应用

更新……

Keras之Mask R-CNN:《极限挑战》第四季第2期助力高考—使用Mask R-CNN代替Photoshop抠图、颜色填充框出目标检测
 DL之Mask R-CNN：2018.6.26世界杯阿根廷队VS尼日利亚比赛2:1实现Mask R-CNN目标检测

1、MaskRCNN案例实现

github：GitHub - matterport/Mask_RCNN: Mask R-CNN for object detection and instance segmentation on Keras and TensorFlow

2、Keras MaskRCNN案例实现

DL之MaskR-CNN：基于类MaskR-CNN算法(RetinaNet+mask head)利用数据集(resnet50_coco_v0.2.0.h5)实现图像分割
github：GitHub - fizyr/keras-maskrcnn: Keras implementation of MaskRCNN object detection.

该存储库并未严格按照其论文中的描述实现MaskRCNN。不同之处在于原作论文使用RPN来提出ROI，并使用这些
ROI同时执行边界框回归、分类和掩模估计。相反，该存储库使用RetinaNet进行边界框回归和分类，并在这些预
测之上构建掩模估计头部(mask estimation head)，相比原论文更简单一些！