ROI Pooling

ROI Pooling 是pooling层的一种,ROI(Region of interest).ROI是指矩形框,往往经过rpn后,输出的不止一个矩形框,所以需要对多个ROI进行pooling。
输入:

1、data: 指的是进入RPN层之前的那个Conv层的Feature Map,通常我们称之为”share_conv“
2、rois: 指的是RPN层的输出,一堆矩形框,形状为1*1*5*1(4个坐标+加索引index),其中值得注意的是:坐标的参考系不是针对feature map这张图的,而是针对原图。

faster R-CNN中ROI pooling的网络结构

layer{
    name: "roi_pook_conv5"
    type: "ROIPooling"
    bottom: "conv5"
    bottom: "rois"
    top: "roi_pool_conv5"
    roi_pooling_param{
        pooled_w: 6
        pooled_h: 6
        spatial_scale: 0.0635 #1/16
    }
}

bottom[0]就是conv5出来的feature_map(长和宽分别是原来图片的1/16),bottom[1]是rois(是一个blob)。其中,top的形状是(bottom[1]->num(),channels_,pooled_height_,pooled_width_)。
其中channels是bottom[0]的channel,pooled_height_和pooled_width_是固定的6
ROI Pooling的实现:
首先确定top的长度和宽度。我们可以将bottom[1]看成一个二维矩阵,矩阵的行数是num_rois=bottom[1]->num(),矩阵的列数是5。(For each ROI R=[batch_index x1 y1 x2 y2]: max pool over R),这个每行的5个参数代表的意思是,batch_index(也就是bottom_rois[0])确定每次在bottom[0]中的第一个维度的偏移量。其他四个参数确定在featuremap中的点的坐标。
详细过程如下:
在featuremap中,首先确定2个坐标(x1/16, y1/16, ), (x2/16, y2/16)。这两个点(左上, 右下)就在featuremap上确定了一个区域。
然后将这个区域36等分(6*6), 划分成了36个大小的子区域。然后找出每个子区域的对应的featuremap的最大值,即为top中相应的点的值。
对于bottom[0]的每一个channel,也都是这样找的.(注意,每次找完一个channel),batch_data和top_data都会偏移offset(0,1)。所以top的第二个维度就等于bottomp[0]的channel。
对于top的第一维度应该怎么解释:
for(int n = 0; n

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值