Mask R-CNN学习笔记

最新推荐文章于 2023-12-31 01:41:03 发布

KeEN丶X

最新推荐文章于 2023-12-31 01:41:03 发布

阅读量574

点赞数

分类专栏： CV炼丹之路文章标签：卷积神经网络深度学习计算机视觉

本文链接：https://blog.csdn.net/KeEN_Xwh/article/details/108956917

版权

CV炼丹之路专栏收录该内容

19 篇文章 1 订阅

订阅专栏

本专栏将从论文的角度解读一下CV方向的一些经典神经网络模型及其贡献与意义，以期加深自己的印象，后续可以随时翻看并且学习其中好的tricks。这一期介绍基于 Faster R-CNN 的 Mask R-CNN ，看看其如何改进使得模型出色地完成了实例分割任务。

论文相关信息

在这里插入图片描述
论文（链接）使用的数据集是MS COCO数据集，并且力压前几届的冠军模型们，比如FCIS，在COCO系列挑战赛的实例分割、边框目标检测以及人体关键点检测三个赛道中都取得了最佳成绩。

网络架构

论文中的架构图：

在这里插入图片描述
更为清晰的图，转自这里：

从上图与 Faster R-CNN 的架构对比可以看出，首先是在用于提取特征的 backbone 部分，利用了 FPN（Feature Pyramid Network，特征金字塔网络，为了解决多尺度检测的问题而引入，具体可以看这篇博客）来代替 CNN ，然后利用RoI Align代替了 RoI Pooling，并且多了一个基于FCN（Fully Convolutional Network，全卷积网络，用于语义分割，具体可以看这篇博客）的用于逐像素实例分割的 Mask Prediction Branch，变成了一个三分支的多任务模型。

tricks

1、backbone部分：FPN or CNN

要看懂这里的实验首先必须先理解一下 Faster R-CNN 的架构和 FPN架构（图转自这里）：

在这里插入图片描述
和

论文中的实验，其中C4代表的就是原始的利用Conv4的特征图：
在这里插入图片描述
结果应该是比较显然的，毕竟在目标检测中对于小物体，传统的CNN经过卷积池化之后可能在特征图上都没有小物体的特征了，所以能够融合低层和高层特征语义信息然后综合进行预测的FPN做的会更好，而且几乎没有消耗额外的资源，这才是FPN最厉害的地方。

2、RoI Pooling or RoI Align

这里直接转一下这篇博客里的原话：

在这里插入图片描述

论文中的实验：

在这里插入图片描述

d组相比于c组的stride 16使用了更大的stride 32，更小的特征图会放大没有对准的缺点，所以RoI Align是一个比较有效的改进，这也是能够把目标检测模型 Faster R-CNN 迁移到实例分割这个难度高了好几档的任务中来的关键之处。

3、Mask 分支

这是最为关键也是比较难理解的一个部分，因为这个分支直接关系到分割的效果，要理解 Mask 分支还是得稍微了解一下以前的模型DeepMask，尤其是在我看论文这部分的时候根本不知道 mask 表示什么的输出：

在这里插入图片描述
由于前面进行了多次卷积和池化，减小了对应的分辨率，Mask 分支先利用反卷积进行分辨率的提升，同时减少通道的个数，将RoI尺寸变成14x14x256，最后输出28x28x80的 mask ，这里的80是类别数，28为特征图大小，可以理解成对 28×28 的每个像素标定这个像素属于80个类的概率。最后将 28×28 的大小通过双线性插值上采样恢复成原图大小，得到二值化 mask ：

在这里插入图片描述

这一分支的损失函数 L_mask 使用的是二值交叉熵损失函数，每个类别使用sigmoid输出。但需要注意的是，计算loss的时候，并不是每个类别的sigmoid输出都计算二值交叉熵损失，而是该像素属于哪个类，哪个类的sigmoid输出才要计算损失，并且在测试的时候，先通过分类分支预测的类别再来选择相应的类别做 mask 预测。这与FCN原文中所用的方法不同，FCN是对每个像素进行多类别softmax分类，然后计算交叉熵损失，相当于同时进行分类和逐像素预测，很明显，这种做法是会造成类间竞争的，而每个类别使用sigmoid输出并计算二值损失，可以避免类间竞争，论文中的实验也表明，通过这种方法，可以较好地提升性能：

在这里插入图片描述
而且FCN也是有效的：

在这里插入图片描述
FCN其实本质上还是做了语义分割的任务，但是由于每个框都只对应一个GT，所以可以做成实例分割。此外，在看了SharpMask和MultiPathNet之后，感觉 FPN 和这里的 FCN 是相辅相成的…

总结

Mask R-CNN是集成了很多工作综合而成的多任务模型，比如用FPN来代替Faster R-CNN中传统的CNN、利用FCN进行分割任务且将FCN中的分类和分割任务解耦了。主要贡献有两点：第一是加入了一个 Mask 预测分支，较好地将做目标检测的 Faster R-CNN 迁移到实例分割任务上来；第二则是由于需要像素级的精确定位，提出了RoI Align改良RoI Pooling，取得了不错的效果。