文章目录
MaskRCNN
1、图像分割方法
Fully-Convolutional Network (FCN)
论文:https://arxiv.org/pdf/1605.06211.pdf
代码:https://github.com/shelhamer/fcn.berkeleyvision.org
FCN经过5次下采样以后,图像的分辨率依次缩小了2,4,8,16,32倍。然后进行上采样,上采样有不同的方法,有FCN-32s、FCN-16s、FCN-8s。具体操作见下图推荐https://blog.csdn.net/taigw/article/details/51401448比对FCN总结较好的博客。
2、特征图金字塔网络
Feature Pyramid Networks for Object Detection (FPN)
通过高层特征进行上采样
和低层特征
进行自顶向下
的连接,而且每一层都会进行预测。
主网络是使用的ResNet,而特征图金字塔分成三个部分,一个自底向下采样(downsampling),一个自顶向下的上采样 (upsampling)和中间的连接部分(lateral connection)。
1x1 conv 进行降维,减少feature map的个数,不改变图像尺寸大小(改变厚度)。
3、生成候选框 anchor
Region Proposal Network(RPN)
本质: 基于滑窗的无类别obejct检测器 ” :
思路:
1、先通过卷积相关操作得到feature maps。在通过rpn在feature maps上提取对应的图,生成region proposals。
2、通过softmax分类判断anchors(k个框)是foreground还是background的概率,去掉超越边界的anchor。
3、通过SmoothL1Loss为属于前景的anchor坐标修正,得到4k个坐标值(左上角和右下角坐标)。
4、ROI Align & ROI Pooling
ROI Pooling : 将共享卷积层中对应的ROI上的特征取出来,采用的是 INTER_NEAREST(即最近邻插值
) ,即在resize时,对于 缩放后坐标不能刚好为整数 的情况,采用了 粗暴的四舍五入
,会将浮点数取整,会对预测的目标坐标产生影响,但对分类影响不大。
ROI Align : 不取整
,并采用双线性插值
,使得预测目标坐标更加精确。
对于检测图片中大目标物体时,两种方案的差别不大,而如果是图片中有较多小目标物体需要检测,则优先选择RoiAlign,更精准些…