MASK_RCNN

  • network

在这里插入图片描述

mask rcnn与faster rcnn的第一点不同是:使用了更强大的骨架网络resnet101+fpn,上图左边是resnet50为骨架网络的结构,右边是resnet101+fpn为骨架网络的结构。

第二点是:ROI Align
ROI Pool做的事是将原图上的ROI映射到最后一层的特征图上,由于骨架网络的步长为16,所以ROI的尺寸会变为[1/16],这是一个取整操作。然后将ROI划分网格并对网格边长进行取整,
比如说对20x20的ROI划分为7x7网格,那么边长会是2.最后对每个网格内所有像素点进行一个max pool。那么这两部取整都会造成极大的位置误差。如在第一步取整中即使约掉小于一的数,乘以16在原图中也会将ROI位置平移一大块。
由于分类任务对这样的平移是鲁棒的,但是对于mask 预测就会损失很大精度。

这里作者换成ROI Align,在映射到特征图时直接1/16,保留ROI的浮点坐标不进行取整,在划分网格时不取整边长而是直接在网格内取四个点,并用双线性插值计算这四个位置对应的值。对这四个点的值进行max/avg来得到这个网格的值。
在这里插入图片描述
在这里插入图片描述
第三点:增加mask 分支。这是一个全卷积网络,生成一个MxMxK的特征图,M是宽高,K是类别个数,mask预测是class special的,经过消除试验发现比class agnostic(只生成一层map)会提升一点点。
计算loss = loss_coord + loss_cls + loss_mask。在计算loss时保证ROI中pos:neg = 1:3(根据IOU),只有postive ROI参与计算坐标误差,计算mask误差时,取ROI在gt中的类别对应的mask层参与计算。

  • 总结

Mask Rcnn是既能做检测又能作分割的网络,这两种任务相辅相成。它在Fast rcnn上增加了预测ROI mask的分割网络,并对ROI pool换成ROI align层。创新点有三个:1.将任务细化使得网络更容易优化,相较于传统分割网络直接预测pixel-wise class的map,
mask rcnn将分类和mask预测分开。2.计算的mask是class special的,但这比class agnostic方式提升很小,注意faster rcnn的坐标预测是class agnostic方式。3.ROI align层的使用。

单线性插值:

对两点之间点用连线上的值进行插值, y − y 0 x − x 0 = y 1 − y 0 x 1 − x 0 \frac{y-y_0}{x-x_0}=\frac{y_1-y_0}{x_1-x_0} xx0yy0=x1x0y1y0导出y的公式就是所要插的值。

双线性插值

先在x方向进行两次线性插值得到 R 1 , R 2 R_1,R_2 R1,R2,在这两个点之间的y方向上进行插值。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值