1. 原理介绍
目标检测typical architecture 通常可以分为两个阶段:
(1)region proposal:给定一张输入image找出objects可能存在的所有位置。这一阶段的输出应该是一系列object可能位置的bounding box。这些通常称之为region proposals或者 regions of interest(ROI)。
(2)final classification:确定上一阶段的每个region proposal是否属于目标一类或者背景。
这个architecture存在的一些问题是:
产生大量的region proposals 会导致performance problems,很难达到实时目标检测。在处理速度方面是suboptimal。无法做到end-to-end training。这就是ROI pooling提出的根本原因。
ROI pooling层能实现training和testing的显著加速,并提高检测accuracy。该层有两个输入:从具有多个卷积核池化的深度网络中获得的固定大小的feature maps;一个表示所有ROI(也可以叫GT)的N*5的矩阵,其中N表示ROI的数目。第一列表示图像index,其余四列表示其余的左上角和右下角坐标。
ROI pooling具体操作如下:
(1)根据输入image,将ROI映射到feature map对应位置,映射是根据image缩小的尺寸来的;
(2)按照ROI Pooling输出的数据的坐标,将其映射到上一步中映射的feature区域上,这样就将原来feature map上的ROI映射划分成了几个sections(sections数量与输出的维度(pooled_w*pooled_h)相同);
(3)对每个sections进行max pooling操作;
这样我们就可以从不同大小的方框得到固定大小的相应的feature maps。值得一提的是,输出的feature maps的大小不取决于ROI和卷积feature maps大小,而是取决于该层设置的pooled_h与pooled_w。ROI pooling 最大的好处就在于极大地提高了处理速度。这样不管给定feature map输入的大小,使得输出的数据维度统一,这与SPP-Net的思想类似。
2. ROI pooling的图文解释
考虑一个 8 ∗ 8 8*8 8∗8大小的feature map,一个ROI,以及ROI Pooling之后的输出大小为 2 ∗ 2 2*2 2∗2
(1)输入的固定大小的feature map
(2)region proposal 投影之后位置(左上角,右下角坐标):(0,3),(7,8)。
(3)将其划分为( 2 ∗ 2 2*2 2∗2)个sections(因为输出大小为 2 ∗ 2 2*2 2∗2),我们可以得到:
(4)对每个section做max pooling,可以得到:
ROI pooling总结:
(1)用于目标检测任务;
(2)允许我们对CNN中的feature map进行reuse;
(3)可以显著加速training和testing速度;
(4)允许end-to-end的形式训练目标检测系统。
3. Caffe中的使用与实现
对于ROI Pooling层在Caffe的prototxt中是这样定义的
layer {
name: "roi_pool5"
type: "ROIPooling"
bottom: "conv5_3"
bottom: "rois"
top: "pool5"
roi_pooling_param {
pooled_w: 7
pooled_h: 7
spatial_scale: 0.0625 # 1/16
}
}
对应的源代码,这里已经写了必要的注释
template <typename Dtype>
void ROIPoolingLayer<Dtype>::LayerSetUp(const vector<Blob<Dtype>*>& bottom,
const vector<Blob<Dtype>*>& top) {
ROIPoolingParameter roi_pool_param = this->layer_param_.roi_pooling_param();
CHECK_GT(roi_pool_param.pooled_h(), 0)
<< "pooled_h must be > 0";
CHECK_GT<