深度学习之 ROI Pooling

最新推荐文章于 2025-03-08 11:01:29 发布

奔跑的大西吉

最新推荐文章于 2025-03-08 11:01:29 发布

阅读量2.1w

点赞数 44

分类专栏：深度学习文章标签：深度学习

原文链接：127.0.0.1

版权

深度学习专栏收录该内容

37 篇文章

订阅专栏

本文详细介绍了ROI（感兴趣区域）及其在Faster R-CNN中的应用，重点阐述了ROIPooling的作用，包括如何处理不同尺寸的featuremaps，以及它如何提高处理速度和网络效率。此外，讨论了ROIPooling在CNN中的重要作用和在Fast R-CNN中的改进，以及它如何优化了R-CNN的检测流程和性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是ROI？

ROI是 Region of interest 的简写，指的是 Faster R-CNN 结构中，经过 RPN 层后，产生的 proposal 对应的 box 框。

ROI Pooling 顾名思义，是 pooling 层的一种，而且是针对 ROIs 的 pooling。整个 ROI 的过程，就是将这些 proposal 抠出来的过程，得到大小统一的 feature map。

ROI Pooling 的输入

ROI Pooling 该层有两个输入：

从具有多个卷积核池化的深度网络中获得的固定大小的feature maps；
一个表示所有 ROI 的 N*5 的矩阵，其中N表示ROI的数目。一列表示图像index，其余四列表示其余的左上角和右下角坐标；

ROI Pooling 的输出

输出是 batch 个 vector，其中 batch 的值等于 roi 的个数，vector的大小为 $c h a n n e l * w * h$ ；ROI Pooling 的过程就是将一个个大小不同的 box 矩形框，都映射成大小为 $w * h$ 的矩形框；

在这里插入图片描述

如图所示，我们先把 roi 中的坐标映射到 feature map 上，映射规则比较简单，就是把各个坐标除以输入图片与 feature map 的大小的比值，得到了 feature map 上的 box 坐标后，我们使用 pooling 得到输出；由于输入的图片大小不一，所以这里我们使用的 spp pooling，spp pooling 在 pooling 的过程中需要计算 pooling 后的结果对应的像素点反映射到 feature map 上所占的范围，然后在那个范围中进行取 max 或者取 average。理解起来有点绕，看后面，你会豁然开朗。

ROI pooling具体操作如下

根据输入image，将 ROI 映射到 feature map 对应位置；
将映射后的区域划分为相同大小的 sections（sections数量与输出的维度相同）；
对每个 sections 进行 max pooling 操作；

这样我们就可以从不同大小的方框得到固定大小的相应的 feature maps。值得一提的是，输出的 feature maps 的大小不取决于 ROI 和卷积 feature maps 大小。ROI pooling 最大的好处就在于极大地提高了处理速度。

ROI pooling example

我们有一个 $8 * 8$ 大小的 feature map，一个ROI，以及输出大小为 $2 * 2$ .

输入的固定大小的feature map
在这里插入图片描述
region proposal 投影之后位置（左上角，右下角坐标）： $(0, 3) ， (7, 8)$ 。

将其划分为（2*2）个 sections（因为输出大小为2*2），我们可以得到：

对每个section做max pooling，可以得到：

整体过程如下：

说明：在此案例中 region proposals 是 5*7 大小的，在 pooling 之后需要得到 2*2 的，所以在 5*7 的特征图划分成 2*2 的时候不是等分的，行是 5/2，第一行得到2，剩下的那一行是3，列是7/2，第一列得到3，剩下那一列是4。

CNN 中的ROI Pooling

在CNN中，Pooling 层的作用主要有两个：

引入 invariance，包括 translation-invariance，rotation-invariance，scale-invariance。
完成 feature map 的聚合，实现数据降维，防止过拟合。

ROI Pooling 将不同输入尺寸的 feature map 通过分块池化的方法得到固定尺寸的输出，其思想来自于 SPPNet。

rbg 大神在 Fast RCNN 中使用时，将 sppnet 中多尺度的池化简化为单尺度，只输出固定尺寸为（w, h）的 feature map。
在这里插入图片描述
在 Fast R-CNN 网络中，原始图片经过多层卷积与池化后，得到整图的 feature map。而由 selective search 产生的大量 proposal 经过映射可以得到其在 feature map 上的映射区域（ROIs），这些ROIs即作为ROI Pooling层的输入。

ROI Pooling时，将输入的 $h * w$ 大小的 feature map 分割成 $H * W$ 大小的子窗口（每个子窗口的大小约为 $h / H ， w / W$ ，其中H、W为超参数，如设定为7 x 7），对每个子窗口进行 max-pooling 操作，得到固定输出大小的 feature map。而后进行后续的全连接层操作。

ROI Pooling层的加入对R-CNN网络的改进

在R-CNN中，整个检测的流程是：
在这里插入图片描述
R-CNN网络的主要问题有：

使用 selective search 产生 proposal，操作耗时，且不利于网络的整体训练和测试
产生的 proposal 需要经过 warp 操作再送入后续网络，导致图像的变形和扭曲
每一个 proposal 均需要单独进行特征提取，重复计算量大

ROI Pooling的加入，相对于R-CNN网络来说，至少有两个改善：

由于ROI Pooling可接受任意尺寸的输入，warp操作不再需要，这有效避免了物体的形变扭曲，保证了特征信息的真实性
不需要对每个proposal都提取特征，采用映射方式从整张图片的 feature map 上获取ROI feature区域

除了上述两个改进外，其实还有一点。R-CNN 中在获取到最终的 CNN 特征后先采用 SVM 进行类别判断，再进行 bounding-box 的回归得到位置信息。整个过程是个串行的流程。这极大地影响了网络的检测速度。Fast R-CNN 中则将 Classification 和 regression 的任务合二为一，变成一个 multi-task 的模型，实现了特征的共享与速度的进一步提升。

不知大家注意没有，Fast R-CNN 只是解决了R-CNN中的两点问题，而仍然沿用了 R-CNN 中 selective search 生成 proposal 的方法。这一方法产生的 proposal 即使经过NMS也会达到 2k~3k 个。一方面生成过程耗时耗力，另一方面给存储也带来压力。

那么，有没有办法改进呢？答案当然是 Yes。那就是 Faster R-CNN 的提出。