关于ROI Pooling Layer的解读

最新推荐文章于 2021-10-19 09:58:41 发布

m_buddy

最新推荐文章于 2021-10-19 09:58:41 发布

阅读量3.5k

点赞数 4

分类专栏：机器学习文章标签： ROI Pooling

本文链接：https://blog.csdn.net/m_buddy/article/details/83445995

版权

ROI Pooling层是解决目标检测架构性能问题的关键，通过将不同大小的ROI映射并最大池化到固定尺寸特征图，实现了训练和测试的加速，保证了端到端训练的可行性。在Caffe中，ROI Pooling通过prototxt配置并有详细源代码解释。

摘要由CSDN通过智能技术生成

1. 原理介绍

目标检测typical architecture 通常可以分为两个阶段：
（1）region proposal：给定一张输入image找出objects可能存在的所有位置。这一阶段的输出应该是一系列object可能位置的bounding box。这些通常称之为region proposals或者 regions of interest（ROI）。
（2）final classification：确定上一阶段的每个region proposal是否属于目标一类或者背景。

这个architecture存在的一些问题是：
产生大量的region proposals 会导致performance problems，很难达到实时目标检测。在处理速度方面是suboptimal。无法做到end-to-end training。这就是ROI pooling提出的根本原因。
ROI pooling层能实现training和testing的显著加速，并提高检测accuracy。该层有两个输入：从具有多个卷积核池化的深度网络中获得的固定大小的feature maps；一个表示所有ROI（也可以叫GT）的N*5的矩阵，其中N表示ROI的数目。第一列表示图像index，其余四列表示其余的左上角和右下角坐标。

ROI pooling具体操作如下：
（1）根据输入image，将ROI映射到feature map对应位置，映射是根据image缩小的尺寸来的；
（2）按照ROI Pooling输出的数据的坐标，将其映射到上一步中映射的feature区域上，这样就将原来feature map上的ROI映射划分成了几个sections（sections数量与输出的维度（pooled_w*pooled_h）相同）；
（3）对每个sections进行max pooling操作；
这样我们就可以从不同大小的方框得到固定大小的相应的feature maps。值得一提的是，输出的feature maps的大小不取决于ROI和卷积feature maps大小，而是取决于该层设置的pooled_h与pooled_w。ROI pooling 最大的好处就在于极大地提高了处理速度。这样不管给定feature map输入的大小，使得输出的数据维度统一，这与SPP-Net的思想类似。

2. ROI pooling的图文解释

考虑一个 $8 * 8$ 大小的feature map，一个ROI，以及ROI Pooling之后的输出大小为 $2 * 2$
（1）输入的固定大小的feature map
在这里插入图片描述
（2）region proposal 投影之后位置（左上角，右下角坐标）：（0，3），（7，8）。

（3）将其划分为（ $2 * 2$ ）个sections（因为输出大小为 $2 * 2$ ），我们可以得到：

（4）对每个section做max pooling，可以得到：
在这里插入图片描述
ROI pooling总结：
（1）用于目标检测任务；
（2）允许我们对CNN中的feature map进行reuse；
（3）可以显著加速training和testing速度；
（4）允许end-to-end的形式训练目标检测系统。

3. Caffe中的使用与实现

对于ROI Pooling层在Caffe的prototxt中是这样定义的

layer {
  name: "roi_pool5"
  type: "ROIPooling"
  bottom: "conv5_3"
  bottom: "rois"
  top: "pool5"
  roi_pooling_param {
    pooled_w: 7
    pooled_h: 7
    spatial_scale: 0.0625 # 1/16
  }
}

对应的源代码，这里已经写了必要的注释

template <typename Dtype>
void ROIPoolingLayer<Dtype>::LayerSetUp(const vector<Blob<Dtype>*>& bottom,
      const vector<Blob<Dtype>*>& top) {
   
  ROIPoolingParameter roi_pool_param = this->layer_param_.roi_pooling_param();
  CHECK_GT(roi_pool_param.pooled_h(), 0)
      << "pooled_h must be > 0";
  CHECK_GT<