ROI Pooling 是pooling层的一种,ROI(Region of interest).ROI是指矩形框,往往经过rpn后,输出的不止一个矩形框,所以需要对多个ROI进行pooling。
输入:
1、data: 指的是进入RPN层之前的那个Conv层的Feature Map,通常我们称之为”share_conv“
2、rois: 指的是RPN层的输出,一堆矩形框,形状为1*1*5*1(4个坐标+加索引index),其中值得注意的是:坐标的参考系不是针对feature map这张图的,而是针对原图。
faster R-CNN中ROI pooling的网络结构
layer{
name: "roi_pook_conv5"
type: "ROIPooling"
bottom: "conv5"
bottom: "rois"
top: "roi_pool_conv5"
roi_pooling_param{
pooled_w: 6
pooled_h: 6
spatial_scale: 0.0635 #1/16
}
}
bottom[0]就是conv5出来的feature_map(长和宽分别是原来图片的1/16),bottom[1]是rois(是一个blob)。其中,top的形状是(bottom[1]->num(),channels_,pooled_height_,pooled_width_)。
其中channels是bottom[0]的channel,pooled_height_和pooled_width_是固定的6
ROI Pooling的实现:
首先确定top的长度和宽度。我们可以将bottom[1]看成一个二维矩阵,矩阵的行数是num_rois=bottom[1]->num(),矩阵的列数是5。(For each ROI R=[batch_index x1 y1 x2 y2]: max pool over R),这个每行的5个参数代表的意思是,batch_index(也就是bottom_rois[0])确定每次在bottom[0]中的第一个维度的偏移量。其他四个参数确定在featuremap中的点的坐标。
详细过程如下:
在featuremap中,首先确定2个坐标(x1/16, y1/16, ), (x2/16, y2/16)。这两个点(左上, 右下)就在featuremap上确定了一个区域。
然后将这个区域36等分(6*6), 划分成了36个大小的子区域。然后找出每个子区域的对应的featuremap的最大值,即为top中相应的点的值。
对于bottom[0]的每一个channel,也都是这样找的.(注意,每次找完一个channel),batch_data和top_data都会偏移offset(0,1)。所以top的第二个维度就等于bottomp[0]的channel。
对于top的第一维度应该怎么解释:
for(int n = 0; n