rpn网络结构再分析

 

这是rpn网络train阶段的网络结构图

rpn_conv1之前的网络是特征提取层,也是和fast rcnn共享的层。rpn_conv1是一层1*1的卷积,这一层是单独为rpn网络多提取一层特征,这一层之后就接两个输出channel层不同的1*1的卷积(即分别进行score的预测和坐标补偿值的预测),这样保证feature map的大小不变。

rpn_cls_score:bach_size*18*width*height

rpn_cls_score_reshape:batch_size*2*(9*width)*height

rpn_bbox_pred:batch_size*36*width*height。每4个channel对应一种类型的anchor(即一个尺寸和一个ratio),因为有9种类型的anchor,所有一共也就有36个channel。以前4个channel为例,第一个channel的feature map每一个值是每个位置中心点x方向的补偿值dx,第二个channel的feature map每一个值是每个位置中心点y方向的补偿值dy,第三个channel的feature map每一个值是每个位置宽度的补偿值dw,第四个channel的feature map每一个值是每个位置长度的补偿值dh。再来说一下这前四个channel的每个feature map,这4个channel的feature map的相对应位置都是对应的一个anchor,比如4个channel的第一个值都是对应的第一种类型anchor的第一个anchor。每个feature map是width*height大小,也就有width*height个值,生成rpn本身就是在这个feature map上进行滑动生成(width*height*anchor类别数)个anchor,这样的话,第一个feature map的第一个值对应的应该是第一种类型的anchor在这个位置上dx补偿值。

 

为什么不直接从rpn_conv1生成rpn_cls_score_reshape?

channel变成2很好实现,但feature map的宽度是个问题。因为rpn_cls_score_reshape的feature map的宽度是9*width,而rpn_conv1是width,直接卷积变成宽度的9倍,我目前还没看到过,reshape成9倍就很好实现。并且对于后面的rpn生成也有帮助,这个后续还要写一些东西

那为什么又要转成rpn_cls_score_reshape的形状呢?

主要是为了分成两类,然后计算概率值,最开始只是一个score值

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值