论文阅读：《Mask R-CNN》ICCV2017

最新推荐文章于 2025-03-31 07:00:00 发布

青青韶华

最新推荐文章于 2025-03-31 07:00:00 发布

阅读量4.8k

点赞数

分类专栏：人体姿态估计文章标签：深度学习与计算机视觉论文

本文链接：https://blog.csdn.net/qq_36165459/article/details/78322340

版权

人体姿态估计专栏收录该内容

12 篇文章

订阅专栏

概述

Mask R-CNN是用于目标检测分割的框架，即对一张图片，既输出图片中已有的目标，还能为每一个实例生成一个高质量的分割掩码。一句话概括object instance segmentation = object detection + semantic segmentation。

特点

1.mask R-CNN是在faster R-CNN的基础上，在每一个RoI都增加一个预测分割的 mask，这和分类以及bounding box回归是并行的一条分支。
2.训练简单，仅仅比faster R-CNN多一点计算开销
3.易于泛化到多个任务上，例如人体姿态估计
4.在不加任何的trick的情况下，再COCO数据集上超越其他的方法

网络框架

这里写图片描述

Mask R-CNN整体框架是faster R-CNN的基础上又加入了全连接的分割子网络，由原来的两个任务（检测+分类），变化了现在的三个任务（检测+分类+分割）。maks R-CNN有两条并行的分支，第一个分支是使用faster R-CNN的基础结构，对候选bounding box进行分类和bounding box坐标回归。第二个分支是对每一个RoI区域预测分割mask，他的结构实际上是一个小的FCN。

实现细节

（1）faster R-CNN 的输出是两个：类别标签和bounding box，它的算法步骤是

第一，RPN（region proposal network），给出候选的bounding box
第二，通过RoIpooling，在各个候选框中进行分类和坐标回归。

所谓RoIpooling就是将大小不同的bounding box映射到矩形框中

（2）mask R-CNN也是分为两步：

第一，RPN给出候选bounding box
第二，一个分支对bounding box进行分类和回归，另一个分支对每一个RoI输出binary mask

（3）loss function：classification loss + box loss + mask loss。mask分支对每一个RoI有Km2维度的输出，即K个类别，分辨率为m*m的二值mask。因此作者使用的是单像素sigmoid二值交叉熵，而不是单像素的softmax多项式交叉熵。二值交叉熵会使得每一类的mask不互相竞争，而不是和其他类的mask比较。

（4）RoIAlignment：是对RoIpooling的改进，RoIpooling会使得在pooling的时候存在不对准的情况，因此作者采用先双线性插值，再聚合的方法。可以用来进行pixel-to-pixel的对准。