Mask R-CNN论文原理讲解

只爱喝水

于 2024-08-29 20:08:44 发布

阅读量569

点赞数 14

文章标签： cnn 人工智能神经网络

本文链接：https://blog.csdn.net/qq_52191127/article/details/141687379

版权

论文:arxiv.org/pdf/1703.06870

代码：maskrcnn-benchmark:Fast, modular reference implementation of Instance Segmentation and Object Detection algorithms in PyTorch. - GitCode

Mask R-CNN简介

Mask R-CNN是何凯明大神的新作。Mask R-CNN是一种在有效检测目标的同时输出高质量的实例分割mask。是对faster r-cnn的扩展，与bbox检测并行的增加一个预测分割mask的分支。Mask R-CNN 可以应用到人体姿势识别。并且在实例分割、目标检测、人体关键点检测三个任务都取得了现在最好的效果，下图是Mask R-CNN的检测效果图：

语义分割通过对输入图像中每个像素的标签进行预测，给出了较好的推理，例如是前景还是背景。每个像素都根据其所在的对象类进行标记。为了进一步发展，实例分割为属于同一类的对象的单独实例提供了不同的标签。

目标检测：可以区分个体但不够准确。
语义分割：可以划分像素但不可以区分个体。
而实例分割则可以结合二者的优点，对个体的分类及定位更加精准。因此，实例分割可以定义为同时解决目标检测问题和语义分割问题的技术。

Mask R-CNN架构

从上图可以看出Mask RCNN架构非常接近Faster RCNN。主要区别在于，在网络的末端，还有另一个头，即上图中的掩码分支，用于生成掩码进行实例分割。还有把Faster RCNN中的ROI Pooling换成了ROIAlign。

Mask R-CNN的改进

ROIAlign

ROIAlign是ROIPooling的进化版，下面来具体讲解一下它的优化：

ROIAlign的提出是为了解决Faster R-CNN中RoI Pooling的区域不匹配的问题，下面我们来举例说明什么是区域不匹配。ROI Pooling的区域不匹配问题是由于ROI Pooling过程中的取整操作产生的（如下图），我们知道ROI Pooling是Faster R-CNN中必不可少的一步，因为其会产生长度固定的特征向量，有了长度固定的特征向量才能进行softmax计算分类损失。

如下图，输入是一张800×800 的图片，经过一个有5次降采样的卷机网络，得到大小为 25×25 的Feature Map。图中的ROI区域大小是 600×500 ，经过网络之后对应的区域为 =18.75X15.625,由于无法整除，ROI Pooling采用向下取整的方式，进而得到ROI区域的Feature Map的大小为 18 × 15 这就造成了第一次区域不匹配。

RoI Pooling的下一步是对Feature Map分bin，加入我们需要一个7 × 7的bin，每个bin的大小为,由于不能整除，ROI同样采用了向下取整的方式，从而每个bin的大小为 2 × 2 ，即整个RoI区域的Feature Map的尺寸为14 × 14。第二次区域不匹配问题因此产生。

对比ROI Pooling之前的Feature Map，ROI Pooling分别在横向和纵向产生了4.75和1.625的误差，对于物体分类或者物体检测场景来说，这几个像素的位移或许对结果影响不大，但是语义分割任务通常要精确到每个像素点，因此ROI Pooling是不能应用到Mask R-CNN中的。

为了解决这个问题，作者提出了RoIAlign。RoIAlign并没有取整的过程，可以全程使用浮点数操作，步骤如下：

1. 计算RoI区域的边长，边长不取整；
2. 将ROI区域均匀分成k × k个bin，每个bin的大小不取整；
3. 每个bin的值为其最邻近的Feature Map的四个值通过双线性插值得到；
4. 使用Max Pooling或者Average Pooling得到长度固定的特征向量。

回到流程的正式讲解，首先输入RP特征图，用的是上一节所讲公式分配的feature map上投射出的，在此不再赘述。补充一下，训练时只传入挑选出的正负样本RP，测试时都传入。然后得到两张7×7和14×14大小的特征图，分别传入进Head层的两个功能分支。

Mask分割

Mask分支用的就是传统的FCN图像分割方法，最后生成28×28×80的预测mask结果，注意得到的结果是软掩码，经过sigmoid后的0~1浮点数。

损失函数

网络是如何训练的呢？（损失函数如下图：）

上式的分类损失和回归框矫正损失，就不再赘述了，实在是老生常谈。我来主要讲解一下Lmask
语义分割损失。在进行掩码预测时，FCN的分割和预测是同时进行的，即要预测每个像素属于哪一类。而Mask R-CNN将分类和语义分割任务进行了解耦，即每个类单独的预测一个位置掩码，这种解耦提升了语义分割的效果。

总结

1. 使用残差网络作为卷积结构
2. 使用Faster R-CNN的物体检测流程：RPN+Fast R-CNN
3. 增加FCN用于语义分割

只爱喝水

关注

14
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Mask R-CNN论文原理讲解

Mask R-CNN是何凯明大神的新作。Mask R-CNN是一种在有效检测目标的同时输出高质量的实例分割mask。是对faster r-cnn的扩展，与bbox检测并行的增加一个预测分割mask的分支。Mask R-CNN 可以应用到人体姿势识别。并且在实例分割、目标检测、人体关键点检测三个任务都取得了现在最好的效果，下图是Mask R-CNN的检测效果图：语义分割通过对输入图像中每个像素的标签进行预测，给出了较好的推理，例如是前景还是背景。每个像素都根据其所在的对象类进行标记。
复制链接

扫一扫