MASK_RCNN

最新推荐文章于 2024-02-06 17:19:03 发布

Android_chunhui

最新推荐文章于 2024-02-06 17:19:03 发布

阅读量273

点赞数 1

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/android_chunhui/article/details/97111910

版权

计算机视觉专栏收录该内容

12 篇文章 0 订阅

订阅专栏

network

在这里插入图片描述

mask rcnn与faster rcnn的第一点不同是：使用了更强大的骨架网络resnet101+fpn，上图左边是resnet50为骨架网络的结构，右边是resnet101+fpn为骨架网络的结构。

第二点是：ROI Align
ROI Pool做的事是将原图上的ROI映射到最后一层的特征图上，由于骨架网络的步长为16，所以ROI的尺寸会变为[1/16]，这是一个取整操作。然后将ROI划分网格并对网格边长进行取整，
比如说对20x20的ROI划分为7x7网格，那么边长会是2.最后对每个网格内所有像素点进行一个max pool。那么这两部取整都会造成极大的位置误差。如在第一步取整中即使约掉小于一的数，乘以16在原图中也会将ROI位置平移一大块。
由于分类任务对这样的平移是鲁棒的，但是对于mask 预测就会损失很大精度。

这里作者换成ROI Align，在映射到特征图时直接1/16,保留ROI的浮点坐标不进行取整，在划分网格时不取整边长而是直接在网格内取四个点，并用双线性插值计算这四个位置对应的值。对这四个点的值进行max/avg来得到这个网格的值。
在这里插入图片描述

第三点：增加mask 分支。这是一个全卷积网络，生成一个MxMxK的特征图，M是宽高，K是类别个数，mask预测是class special的，经过消除试验发现比class agnostic（只生成一层map）会提升一点点。
计算loss = loss_coord + loss_cls + loss_mask。在计算loss时保证ROI中pos:neg = 1:3（根据IOU），只有postive ROI参与计算坐标误差，计算mask误差时，取ROI在gt中的类别对应的mask层参与计算。

总结

Mask Rcnn是既能做检测又能作分割的网络，这两种任务相辅相成。它在Fast rcnn上增加了预测ROI mask的分割网络，并对ROI pool换成ROI align层。创新点有三个：1.将任务细化使得网络更容易优化，相较于传统分割网络直接预测pixel-wise class的map，
mask rcnn将分类和mask预测分开。2.计算的mask是class special的，但这比class agnostic方式提升很小，注意faster rcnn的坐标预测是class agnostic方式。3.ROI align层的使用。

单线性插值：

对两点之间点用连线上的值进行插值， $\frac{y-y_0}{x-x_0}=\frac{y_1-y_0}{x_1-x_0}$ 导出y的公式就是所要插的值。

双线性插值

先在x方向进行两次线性插值得到 $R_1,R_2$ ，在这两个点之间的y方向上进行插值。
在这里插入图片描述

Android_chunhui

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MASK_RCNN

network外链图片转存中…(img-YdWLPRya-1563937279256)]mask rcnn与faster rcnn的第一点不同是：使用了更强大的骨架网络resnet101+fpn，上图左边是resnet50为骨架网络的结构，右边是resnet101+fpn为骨架网络的结构。第二点是：ROI AlignROI Pool做的事是将原图上的ROI映射到最后一层的特征图上，由于...
复制链接

扫一扫