Mask RCNN论文解读

最新推荐文章于 2023-11-17 10:24:31 发布

自在犹仙

最新推荐文章于 2023-11-17 10:24:31 发布

阅读量221

点赞数 1

分类专栏：深度学习论文阅读文章标签：深度学习目标检测计算机视觉

本文链接：https://blog.csdn.net/q7672345/article/details/128890713

版权

深度学习论文阅读专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Mask RCNN

Mask RCNN: 简单、灵活和通用的对象实例分割框架。可以有效地检测图像中的对象，同时为每个实例生成高质量的分割掩码。通过添加分支来预测对象掩码与现有分支并行以进行边界框识别来扩展 Faster R-CNN。

1. 前人研究

ROI pooling: 在feature map中预设一个大小，即pooled_w和pooled_h。将proposal层得到的每一个Proposal特征进行尺度统一。方便后续处理实现固定大小的输出。具体步骤为：

首先将proposal的（x1,y1,x2,y2）映射回到(M/16.N/16)大小
将每一个proposal对应的feature map中的区域划分为pooled_w*pooled_h网格
对网格每一部分做max-pooling
使得最终输出结果都是固定的大小，使得输出固定长度的ROI

DeepMask: 根据RCNN的启发，很多方法是基于候选区域分割的。先得到候选区，然后由Fast RCNN进行分类。这类方法分割先于分类。

多阶段级联网络：从预测得到的bbox和分类结果来进行分割。Mask RCNN不同于以上两类方法，其属于并行架构

FCIS:全卷积实例分割网络，全卷积地预测一组位置敏感的输出通道。这些通道同时处理对象类、框和掩码，使系统快速。缺点是其会再重叠物体上出现错误，并且带有虚假边缘。

FCN:逐像素分类，并标出不同实例。利用逐像素的softmax以及多项式交叉熵损失函数

Faster RCNN:两阶段目标检测网络，首先是RPN网络生成候选框，第二阶段则是利用ROI pool提取特征进行分类和预测框回归。

2. 网络结构

网络组成结构:CNN backbone(ResNet + FPN) + RPN + Head(分类、回归、mask)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qSaO2mkC-1675580908433)(C:\Users\1\AppData\Roaming\Typora\typora-user-images\image-20230205133123703.png)]

图片来源引用：https://zhuanlan.zhihu.com/p/432100214

Faster RCNN 不是为网络输入和输出之间的像素到像素对齐而设计的。提出了ROI Align层，它保留了精确的位置信息、修复了错位、并且是无量化的。

faster rcnn中的ROIpooling层用于进行ROI的像素对齐，将筛选后的proposal在原feature-map上进行非裁剪或者变形意义上的映射和对齐。保持输出的一致大小。

Mask rcnn独立预测每个类的二进制掩码，并且基于ROI分类分支来进行类别预测。FCNs则进行逐像素的预测，结合了分类和分割。直观而自然地，添加了第三分支用于输出对象掩码，但是掩码输出需要更细致的空间信息。所以需要ROI align进行像素对齐。

Without bells and whistles: 不带任何技巧下的训练

其他细节:

Proposal中正负样本选取原则：如果 RoI 与真实框的 IoU 至少为 0.5，则认为 RoI 为正，否则为负。掩码损失 $L_{mask}$ 仅在正 RoI 上定义。
Softmax耦合了掩码和类预测的任务导致了严重的精度下降。而现有分支下为每一个类生成掩码，Sigmoid就足以预测一个二进制掩码，避免了类之间的竞争。
Faster RCNN+ROI align比Mask RCNN的目标检测框精度要低，作者认为是多任务带来的Mask RCNN精度提升

3. idea模块

损失函数定义：掩码分支的输出对应的是k* m * m的大小。其中k代表k类
$L = L_{cls}+L_{box}+L_{mask}$
其中的 $L_{mask}$ 与类别高度相关联的。比如是某一个ROI对应一个类别k,则 $L_{mask}$ 只定义计算在第k个mask的结果，其他的ROI是不算的。

解耦结构： $L_{mask}$ 的定义允许网络为每个类生成掩码，而不会在类之间竞争。只利用逐像素SIgmoid以及二值分类损失。mask分支对空间进行编码，提供了像素到像素的空间对应关系。允许掩码分支中的每一层保持显式的m × m对象空间布局，而不将其折叠成缺乏空间维度的向量表示。与以往采用fc层进行掩码预测的方法不同，FCN需要更少的参数，实验表明效果更好。

ROI align: 一个标准操作用于对每个ROI提取特定大小的特征图，可以理解为一个特征映射的过程。

传统的ROI 特征映射：引起特征错位