MaskRCNN分割算法的组成结构总结

最新推荐文章于 2024-09-09 07:45:24 发布

索隆啊

最新推荐文章于 2024-09-09 07:45:24 发布

阅读量1.5k

点赞数 1

分类专栏：深度学习笔记文章标签： maskrcnn原理结构 RPN FCN FPN ROI Pooling

本文链接：https://blog.csdn.net/qq_36758461/article/details/99723099

版权

深度学习笔记专栏收录该内容

22 篇文章 3 订阅

订阅专栏

文章目录

MaskRCNN

MaskRCNN

在这里插入图片描述

1、图像分割方法

Fully-Convolutional Network (FCN)

论文：https://arxiv.org/pdf/1605.06211.pdf
代码：https://github.com/shelhamer/fcn.berkeleyvision.org
FCN经过5次下采样以后，图像的分辨率依次缩小了2，4，8，16，32倍。然后进行上采样，上采样有不同的方法，有FCN-32s、FCN-16s、FCN-8s。具体操作见下图在这里插入图片描述推荐https://blog.csdn.net/taigw/article/details/51401448比对FCN总结较好的博客。

2、特征图金字塔网络

Feature Pyramid Networks for Object Detection (FPN)

通过高层特征进行上采样和低层特征进行自顶向下的连接，而且每一层都会进行预测。
在这里插入图片描述
主网络是使用的ResNet，而特征图金字塔分成三个部分，一个自底向下采样（downsampling），一个自顶向下的上采样（upsampling）和中间的连接部分（lateral connection)。

1x1 conv 进行降维，减少feature map的个数，不改变图像尺寸大小（改变厚度）。

3、生成候选框 anchor

Region Proposal Network（RPN）

本质：基于滑窗的无类别obejct检测器 ” :
思路：
1、先通过卷积相关操作得到feature maps。在通过rpn在feature maps上提取对应的图，生成region proposals。
2、通过softmax分类判断anchors（k个框）是foreground还是background的概率，去掉超越边界的anchor。
3、通过SmoothL1Loss为属于前景的anchor坐标修正，得到4k个坐标值(左上角和右下角坐标)。
在这里插入图片描述

4、ROI Align & ROI Pooling

ROI Pooling ：将共享卷积层中对应的ROI上的特征取出来，采用的是 INTER_NEAREST（即最近邻插值），即在resize时，对于缩放后坐标不能刚好为整数的情况，采用了粗暴的四舍五入，会将浮点数取整，会对预测的目标坐标产生影响，但对分类影响不大。
ROI Align ： 不取整，并采用双线性插值，使得预测目标坐标更加精确。
对于检测图片中大目标物体时，两种方案的差别不大，而如果是图片中有较多小目标物体需要检测，则优先选择RoiAlign，更精准些…