Mask-RCNN理解

最新推荐文章于 2023-08-25 22:07:29 发布

郭大侠写leetcode

最新推荐文章于 2023-08-25 22:07:29 发布

阅读量445

点赞数

分类专栏：计算机视觉文章标签：计算机视觉深度学习目标检测

原文链接：https://blog.csdn.net/weixin_42445581/article/details/93343834

版权

计算机视觉专栏收录该内容

16 篇文章 0 订阅

订阅专栏

原Blog链接：https://blog.csdn.net/weixin_42445581/article/details/93343834
论文链接：Mask Region-based Convolutional Neural Network

Mask R-CNN是以Faster R-CNN为基础发展而来的。为了理解Mask R-CNN，建议读者先理解Faster R_CNN，可以参考Faster R-CNN的理解。

结构

图一 Faster R-CNN的结构
图二 Mask R-CNN的结构

对比图一和图二我们可知，相比于Faster R-CNN，Mask R-CNN有两个不同的地方，首先是RoI pooling 替换成RoI Align,其次是增加了一条生成Mask的分支，用于做语义分割。接下来详细介绍这两个独特的地方。

RoI Align

图三 RoI Align图解

不管是RoI pool还是RoI Align，目的都是相同的，就是将输入feature map上的RoI通过max pool生成一个新的，尺寸固定的输出feature map。在这个举例中，就是要生成一个22的输出feature map。若输出feature map的尺寸设计为mn，则将RoI分成m*n块，每块称为一个bin(箱子)，从每个bin中取最大值作为输出。

输入feature map上的RoI是通过原输入图像的proposal（候选框）按位置关系映射过来的。由于原图是通过若干的卷积层和池化层才生成这里的输入feature map。所以输入feature map的尺寸要比原输入图像要小。原图上的proposal的坐标按比例缩小，就可能会产生不能整除的现象。如图三的第一行所示。RoI在输入feature map上没有像素对齐。

RoI pool的处理方法简单粗暴。将RoI的位置坐标通过四舍五入，使RoI与输入feature map像素对齐。再通过四舍五入的方法，使分块bin与输入feature map像素对齐，再从每个bin中取最大值作为输出。这样操作，会使RoI发生一定程度的位移和形变，这对于分类和检测而言，影响不大。但是对于语义分割来说，要求RoI与proposal位置对齐，这样才能生成准确的分割结果，所以RoI pool不是一个良好的选择。

而RoI Align采用可以不需要位移或形变的方法。在每个bin中，按照一定的规则取4个位置，通过双线性插值的方法，计算出这4个位置的值，并取4个中的最大值作为输出。这样就使得RoI与proposal位置对齐了，有利于做语义分割，也提高了分类和bounding box检测的精度。

Mask分支

依据Faster R-CNN的分支思想，Mask R-CNN增加了一个做语义分割的mask分支。与经典的语义分割网络FCN思路不同。FCN输出的语义图是包含所有分类的，如图四左所示，这样的分割方法，存在不同分类之间的竞争。而Mask R-CNN输出的mask，只有物体和背景，如图四右所示，这个mask对应于分类分支所预测出的物体的。这种mask的分割方法，不存在不同分类之间的竞争，所以可以提高分割精度。

回头看图二中的的mask分支，它沿用了FCN的网络结构，使用全卷积网络，最终输出的mask尺寸为WHM，W*H是mask的大小，而M代表有M个分类，与bounding box类似，只有分类分支预测出的分类，对应的mask才用意义，才会在训练和测试中被使用。

图四两种分割思路对比

在这里插入图片描述

郭大侠写leetcode

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mask-RCNN理解

原Blog链接：https://blog.csdn.net/weixin_42445581/article/details/93343834论文链接：Mask Region-based Convolutional Neural NetworkMask R-CNN是以Faster R-CNN为基础发展而来的。为了理解Mask R-CNN，建议读者先理解Faster R_CNN，可以参考Faster R-CNN的理解。结构对比图一和图二我们可知，相比于Faster R-CNN，Mask R-CNN有
复制链接

扫一扫