Mask R-CNN-学习记录

最新推荐文章于 2024-10-24 23:03:12 发布

羊村第一突破手懒羊羊

最新推荐文章于 2024-10-24 23:03:12 发布

阅读量77

点赞数

文章标签： cnn 学习

本文链接：https://blog.csdn.net/lzf767801/article/details/132063302

版权

引入：本次学习内容基本来自于Kaiming He, Georgia Gkioxari编写的的《Mask R-CNN》，以及部分讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。
（一）摘要：摘要：Mask R-CNN是一种基于卷积神经网络的目标检测和语义分割方法，它在Faster R-CNN架构的基础上进行了改进。Mask R-CNN能够同时检测图像中的物体并准确地预测每个物体的边界框和像素级别的掩码。其网络架构由骨干网络和网络头部组成，骨干网络用于提取图像特征，而网络头部负责边界框识别和对每个ROI进行掩码预测。此外，Mask R-CNN还引入了Region Proposal Network (RPN)用于生成候选区域。

（二）发表时间：2017

（三）关键词：图像分割，医学应用，RCNN

（四）学习记录：

Mask R-CNN算是Faster R-CNN的扩展。Mask R-CNN，它通过在现有的分类和边界框回归分支中添加一个用于在每个感兴趣区域（RoI）上预测分割掩码的分支来扩展 Faster R-CNN。掩码分支是一个应用于每个 RoI 的小型全卷积网络，以像素级方式预测分割掩码。Mask R-CNN 在 Faster R-CNN 框架的基础上很容易实现和训练，并且支持各种灵活的架构设计。此外，掩码分支只会增加一小部分计算开销，使系统快速运行并进行快速实验。流程如下图。

Mask R-CNN的运行也是两阶段过程。第一阶段与RPN完全相同。在第二阶段，除了预测类别和边界框偏移量之外，Mask R-CNN还为每个RoI输出一个二进制掩码。

掩码编码了输入物体的空间布局。因此，与通过全连接层（fc层）将类别标签或边界框偏移量必然压缩为短输出向量不同，通过卷积提供的像素对应关系，可以自然地提取掩码的空间结构。

为了实现这种像素对应的行为，所以需要RoI特征本身就是小的特征图，并且需要良好对齐以准确地保留逐像素的空间对应关系。因此，作者引入了RoIAlign层，它在掩码预测中发挥着关键作用。RoIAlign层能够将不规则形状的RoI准确地对齐到固定大小的特征图上，并从对应的位置提取特征，使得掩码预测更加精确和准确。

Mask R-CNN的架构可以分为两个部分。骨干网络和网络头部。骨干网络是用于提取整个图像的特征的网络架构。作者在实验中尝试了多种骨干网络架构，包括ResNet和ResNeXt。其中，深度为50或101层的ResNet和ResNeXt被广泛使用。骨干网络通常从第4阶段最后一个卷积层开始提取特征。

另外一种更有效的骨干网络是Feature Pyramid Network (FPN)。FPN使用自顶向下的架构和横向连接来构建一个内部特征金字塔。FPN的骨干网络在Mask R-CNN中被使用，根据其尺度从特征金字塔的不同层级提取RoI特征。

网络头部紧随骨干网络，它是用于边界框识别和对每个RoI单独应用掩码预测的部分。作者在头部的设计上遵循了以前的工作，并添加了一个完全卷积的掩码预测分支。具体的网络架构可以参考下图。