fast rcnn的理解

结构

输入是一张图像。图像输入有两个去处。往右,作为卷积神经网络的输入,生成一个feature map;往下,使用selective search,生成大约2000个proposal。每个proposal按照位置关系,从输入图像映射到feature map,在feature map上得到相同数量的小区域,称为RoI(region of interest)。每个RoI经过RoI pooling,得到尺寸固定为(H*W)的特征图。RoI pooling使用的是max pooling,具体操作为:假设输入的RoI的尺寸为(h*w),那么max pooling的滑窗大小为(h/H,w/W),滑窗滑动不重叠,也就是水平步长为w/W,竖直步长为h/H,对每个滑窗内取最大值作为输出。每个RoI经过RoI pooling,得到尺寸固定为(H*W)的特征图后,又经过两个全连接层,得到一个向量,称为RoI feature vector。这个向量随后分别作为分类分支和bounding box回归分支的输入。分类分支中,经过一个全连接层,得到一个M维的向量,表示分类得分,M代表类别个数。bounding box回归分支中,经过一个全连接层,得到一个M*4维的向量,代表M个类别的bounding box的参数(r,c,h,w:左上角的坐标,高,宽),每个bounding box有4个参数,所以是M*4维的向量。

训练

使用mini-batch gradient descent训练。mini-batch的大小为R,是从N张照片中采样出来的R个RoI,则每张照片采样R/N个RoI。

loss定义:

L(\{p_i\},\{t_i\})=\frac{1}{N_{cls}}\sum_iL_{cls}(p_i,p_i^*)+\lambda\frac{1}{N_{reg}}p_i^*L_{reg}(t_i,t_i^*)

i代表mini-batch中的第i个RoI。p_i代表预测概率,p_i^*代表ground truth的概率。左边一项计算分类得分的损失值,右边计算bounding box回归的损失值。左边计算的是常见的交叉熵L_{cls}(p_i,p_i^*) = -p_i^*log(p_i)。右边式子中Lreg = smoothL1: 

loss的第二项中的t_it_i^*的定义见下方

 

 x,y,w,h是框的中心点坐标,宽度和高度。x,xa,x^*分别是预测值,proposal的值和ground truth的值。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值