ROI Pooling

最新推荐文章于 2023-02-14 09:49:04 发布

gufeng_1992

最新推荐文章于 2023-02-14 09:49:04 发布

阅读量1k

点赞数

ROI Pooling 是pooling层的一种，ROI（Region of interest）.ROI是指矩形框，往往经过rpn后，输出的不止一个矩形框，所以需要对多个ROI进行pooling。
输入：

1、data：指的是进入RPN层之前的那个Conv层的Feature Map，通常我们称之为”share_conv“
2、rois: 指的是RPN层的输出，一堆矩形框，形状为1*1*5*1（4个坐标+加索引index），其中值得注意的是：坐标的参考系不是针对feature map这张图的，而是针对原图。

faster R-CNN中ROI pooling的网络结构

layer{
    name: "roi_pook_conv5"
    type: "ROIPooling"
    bottom: "conv5"
    bottom: "rois"
    top:　"roi_pool_conv5"
    roi_pooling_param{
        pooled_w: 6
        pooled_h: 6
        spatial_scale: 0.0635 #1/16
    }
}

bottom[0]就是conv5出来的feature_map（长和宽分别是原来图片的1/16），bottom[1]是rois（是一个blob）。其中，top的形状是(bottom[1]->num(),channels_，pooled_height_,pooled_width_)。
其中channels是bottom[0]的channel，pooled_height_和pooled_width_是固定的6
ROI Pooling的实现：
首先确定top的长度和宽度。我们可以将bottom[1]看成一个二维矩阵，矩阵的行数是num_rois=bottom[1]->num(),矩阵的列数是5。（For each ROI R=[batch_index x1 y1 x2 y2]: max pool over R），这个每行的5个参数代表的意思是，batch_index（也就是bottom_rois[0]）确定每次在bottom[0]中的第一个维度的偏移量。其他四个参数确定在featuremap中的点的坐标。
详细过程如下：
在featuremap中，首先确定2个坐标(x1/16, y1/16, ), (x2/16, y2/16)。这两个点(左上, 右下)就在featuremap上确定了一个区域。
然后将这个区域36等分(6*6), 划分成了36个大小的子区域。然后找出每个子区域的对应的featuremap的最大值，即为top中相应的点的值。
对于bottom[0]的每一个channel，也都是这样找的.(注意，每次找完一个channel)，batch_data和top_data都会偏移offset(0,1)。所以top的第二个维度就等于bottomp[0]的channel。
对于top的第一维度应该怎么解释：
for(int n = 0; n