MaskRCNN分割算法的组成结构总结

MaskRCNN

在这里插入图片描述

1、图像分割方法

Fully-Convolutional Network (FCN)

论文:https://arxiv.org/pdf/1605.06211.pdf
代码:https://github.com/shelhamer/fcn.berkeleyvision.org
FCN经过5次下采样以后,图像的分辨率依次缩小了2,4,8,16,32倍。然后进行上采样,上采样有不同的方法,有FCN-32s、FCN-16s、FCN-8s。具体操作见下图在这里插入图片描述推荐https://blog.csdn.net/taigw/article/details/51401448比对FCN总结较好的博客。

2、特征图金字塔网络

Feature Pyramid Networks for Object Detection (FPN)

通过高层特征进行上采样低层特征进行自顶向下的连接,而且每一层都会进行预测。
在这里插入图片描述
主网络是使用的ResNet,而特征图金字塔分成三个部分,一个自底向下采样(downsampling),一个自顶向下的上采样 (upsampling)和中间的连接部分(lateral connection)。
在这里插入图片描述
1x1 conv 进行降维,减少feature map的个数,不改变图像尺寸大小(改变厚度)。

3、生成候选框 anchor

Region Proposal Network(RPN)

本质: 基于滑窗的无类别obejct检测器 ” :
思路:
1、先通过卷积相关操作得到feature maps。在通过rpn在feature maps上提取对应的图,生成region proposals。
2、通过softmax分类判断anchors(k个框)是foreground还是background的概率,去掉超越边界的anchor。
3、通过SmoothL1Loss为属于前景的anchor坐标修正,得到4k个坐标值(左上角和右下角坐标)。
在这里插入图片描述

4、ROI Align & ROI Pooling

ROI Pooling : 将共享卷积层中对应的ROI上的特征取出来,采用的是 INTER_NEAREST(即最近邻插值) ,即在resize时,对于 缩放后坐标不能刚好为整数 的情况,采用了 粗暴的四舍五入,会将浮点数取整,会对预测的目标坐标产生影响,但对分类影响不大。
ROI Align不取整,并采用双线性插值,使得预测目标坐标更加精确。
对于检测图片中大目标物体时,两种方案的差别不大,而如果是图片中有较多小目标物体需要检测,则优先选择RoiAlign,更精准些…

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值