fast rcnn的理解

最新推荐文章于 2024-07-12 11:25:47 发布

PROMINEM

最新推荐文章于 2024-07-12 11:25:47 发布

阅读量429

点赞数 1

文章标签：图像检测 fast rcnn

本文链接：https://blog.csdn.net/weixin_42445581/article/details/93169121

版权

结构

输入是一张图像。图像输入有两个去处。往右，作为卷积神经网络的输入，生成一个feature map;往下，使用selective search，生成大约2000个proposal。每个proposal按照位置关系，从输入图像映射到feature map，在feature map上得到相同数量的小区域，称为RoI(region of interest)。每个RoI经过RoI pooling，得到尺寸固定为(H*W)的特征图。RoI pooling使用的是max pooling，具体操作为：假设输入的RoI的尺寸为（h*w),那么max pooling的滑窗大小为（h/H,w/W）,滑窗滑动不重叠，也就是水平步长为w/W，竖直步长为h/H，对每个滑窗内取最大值作为输出。每个RoI经过RoI pooling，得到尺寸固定为(H*W)的特征图后，又经过两个全连接层，得到一个向量，称为RoI feature vector。这个向量随后分别作为分类分支和bounding box回归分支的输入。分类分支中，经过一个全连接层，得到一个M维的向量，表示分类得分，M代表类别个数。bounding box回归分支中，经过一个全连接层，得到一个M*4维的向量，代表M个类别的bounding box的参数（r,c,h,w:左上角的坐标，高，宽），每个bounding box有4个参数，所以是M*4维的向量。

训练

使用mini-batch gradient descent训练。mini-batch的大小为R，是从N张照片中采样出来的R个RoI，则每张照片采样R/N个RoI。

loss定义：

$L(\{p_i\},\{t_i\})=\frac{1}{N_{cls}}\sum_iL_{cls}(p_i,p_i^*)+\lambda\frac{1}{N_{reg}}p_i^*L_{reg}(t_i,t_i^*)$

i代表mini-batch中的第i个RoI。 p_i 代表预测概率， p_i^* 代表ground truth的概率。左边一项计算分类得分的损失值，右边计算bounding box回归的损失值。左边计算的是常见的交叉熵 $L_{cls}(p_i,p_i^*) = -p_i^*log(p_i)$ 。右边式子中Lreg = smoothL1:

loss的第二项中的 t_i 和 t_i^* 的定义见下方

x,y,w,h是框的中心点坐标，宽度和高度。x,xa, x^* 分别是预测值，proposal的值和ground truth的值。

PROMINEM

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
fast rcnn的理解

结构输入是一张图像。图像输入有两个去处。往右，作为卷积神经网络的输入，生成一个feature map;往下，使用selective search，生成大约2000个proposal。每个proposal按照位置关系，从输入图像映射到feature map，在feature map上得到相同数量的小区域，称为RoI(region of interest)。每个RoI经过RoI pooling...
复制链接

扫一扫