【转】Mask RCNN解读

最新推荐文章于 2023-04-15 17:05:54 发布

Zlase

最新推荐文章于 2023-04-15 17:05:54 发布

阅读量402

点赞数

分类专栏：深度学习文章标签：机器学习

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

源地址：https://blog.csdn.net/linolzhang/article/details/71774168

一. Mask-RCNN 介绍

上篇文章介绍了 FCN，这篇文章引入个新的概念 Mask-RCNN，看着比较好理解哈，就是在 RCNN 的基础上添加 Mask。

Mask-RCNN 来自于年轻有为的 Kaiming 大神，通过在 Faster-RCNN 的基础上添加一个分支网络，在实现目标检测的同时，把目标像素分割出来。

论文下载：Mask R-CNN 部分翻译

代码下载：【Github】

Mask-RCNN 的网络结构示意（在作者原图基础上修改了一下）：

假设大家对 Faster 已经很熟悉了，不熟悉的同学建议先看下之前的博文：【目标检测-RCNN系列】

其中黑色部分为原来的 Faster-RCNN，红色部分为在 Faster网络上的修改：

1）将 Roi Pooling 层替换成了 RoiAlign；

2）添加并列的 FCN 层（mask 层）；

先来概述一下 Mask-RCNN 的几个特点（来自于 Paper 的 Abstract）：

1）在边框识别的基础上添加分支网络，用于语义Mask 识别；

2）训练简单，相对于 Faster 仅增加一个小的 Overhead，可以跑到 5FPS；

3）可以方便的扩展到其他任务，比如人的姿态估计等；

4）不借助 Trick，在每个任务上，效果优于目前所有的 single-model entries；

包括 COCO 2016 的Winners。

PS：写到这儿提醒一句，建议大家先读一遍原 Paper，这样再回来看的话会有第二次理解。

二. RCNN行人检测框架

基于最早的 Faster RCNN 框架，出现不少改进，主要有三篇需要看：

1）作者推荐的这篇

Speed/accuracy trade-offs for modern convolutional object detectors

论文下载【arxiv】

2）ResNet

MSRA也算是作者自己的作品，可以 refer to blog【ResNet残差网络】

论文下载【arxiv】

3）FPN

Feature Pyramid Networks for Object Detection，通过特征金字塔来融合多层特征，实现CNN。

论文下载【arxiv】

来看下后面两种 RCNN 方法与 Mask 结合的示意图（直接贴原图了）：

图中灰色部分是原来的 RCNN 结合 ResNet or FPN 的网络，下面黑色部分为新添加的并联 Mask层，这个图本身与上面的图也没有什么区别，旨在说明作者所提出的Mask RCNN 方法的泛化适应能力 - 可以和多种 RCNN框架结合，表现都不错。

三. Mask-RCNN 技术要点

● 技术要点1 - 强化的基础网络

通过 ResNeXt-101+FPN 用作特征提取网络，达到 state-of-the-art 的效果。

● 技术要点2 - ROIAlign

采用 ROIAlign 替代 RoiPooling（改进池化操作）。引入了一个插值过程，先通过双线性插值到14*14，再 pooling到7*7，很大程度上解决了仅通过 Pooling 直接采样带来的 Misalignment 对齐问题。

PS：虽然 Misalignment 在分类问题上影响并不大，但在 Pixel 级别的 Mask 上会存在较大误差。

后面我们把结果对比贴出来（Table2 c & d），能够看到 ROIAlign 带来较大的改进，可以看到，Stride 越大改进越明显。

● 技术要点3 - Loss Function

每个 ROIAlign 对应 K * m^2 维度的输出。K 对应类别个数，即输出 K 个mask，m对应池化分辨率（7*7）。Loss 函数定义：

Lmask(Cls_k) = Sigmoid (Cls_k)，平均二值交叉熵（average binary cross-entropy）Loss，通过逐像素的 Sigmoid 计算得到。

Why K个mask？通过对每个 Class 对应一个 Mask 可以有效避免类间竞争（其他 Class 不贡献 Loss ）。

通过结果对比来看（Table2 b），也就是作者所说的 Decouple 解耦，要比多分类的 Softmax 效果好很多。