mask rcnn 中 ROI Align及SmoothL1loss

最新推荐文章于 2024-08-15 19:34:42 发布

eclipSYcn

最新推荐文章于 2024-08-15 19:34:42 发布

阅读量2.8k

点赞数 1

分类专栏：深度学习笔记文章标签： mask-rcnn

本文链接：https://blog.csdn.net/Eclipsesy/article/details/78871643

版权

深度学习笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

ROI pooling层

说起ROI Alignment，就要说道faster-rcnn的ROI pooling，
ROIpooling层结构是为了将原图像的rois映射到固定大小的feature map上。而此方法有一些缺点，会带来边缘像素的缺失。

回顾ROIpooling。
具体caffe层可以观察ROIpooling层解析

ROI Align的作用

如果roi大小为(7,6)，而roipooling是分成了(6,6)的部分，(7,6)到(6,6)的转换必然带来了边缘某像素的损失。而roialign利用双线性插值，将roi(7,6)插值扩充到(12,12)，此时再做(6,6)的roipooling，会提高精度，充分利用了roi的像素。

SmoothL1Loss

faster rcnn的源码理解（一）SmoothL1LossLayer论文与代码的结合理解
SmoothL1LossLayer 计算一张图片的损失函数

λ 1 N r e g \sum i p i * L r e g (t i, t i *) (1)

$\lambda\frac{1}{N_{reg}}\sum_{i}{{p_i}^*L_reg(t_i,{t_i}^*)} \tag1$

$i$ ： mini-batch 的 anchor 的索引。
$p_i$ ：目标的预测概率。
${p_i}^*$ ：target二分类是否有物体，有物体为1，否则为0。
$t_i$ 是一个四点向量，预测坐标
${t_i}^*$ 是一个四点向量，是ground truth boungding box的坐标（真实坐标）

L r e g (t, t * i) = R (t i - t i *) (2)

$L_{reg}(t_,t_i^*) = R(t_i-{t_i}*)\tag2$

bottom[0]预测坐标，即 $t_i$
bottom[1]target坐标，即 ${t_i}^*$
bottom[2]inside，有物体，即有前景(foreground)时为1，否则为0，即 ${p_i}^*$
bottom[3]outside，没有前景（fg）也没有后景（bg）的为0，其他为1/（bg+fg），对应于加号右边的系数部分。