深度学习之 ROI Pooling

什么是ROI?

ROI是 Region of interest 的简写,指的是 Faster R-CNN 结构中,经过 RPN 层后,产生的 proposal 对应的 box 框。

ROI Pooling 顾名思义,是 pooling 层的一种,而且是针对 ROIs 的 pooling。整个 ROI 的过程,就是将这些 proposal 抠出来的过程,得到大小统一的 feature map。

ROI Pooling 的输入

ROI Pooling 该层有两个输入:

  1. 从具有多个卷积核池化的深度网络中获得的固定大小的feature maps;
  2. 一个表示所有 ROI 的 N*5 的矩阵,其中N表示ROI的数目。一列表示图像index,其余四列表示其余的左上角和右下角坐标;

ROI Pooling 的输出

输出是 batch 个 vector,其中 batch 的值等于 roi 的个数,vector的大小为 c h a n n e l ∗ w ∗ h channel*w*h channelwh;ROI Pooling 的过程就是将一个个大小不同的 box 矩形框,都映射成大小为 w ∗ h w*h wh 的矩形框;

在这里插入图片描述
在这里插入图片描述
如图所示,我们先把 roi 中的坐标映射到 feature map 上,映射规则比较简单,就是把各个坐标除以输入图片与 feature map 的大小的比值,得到了 feature map 上的 box 坐标后,我们使用 pooling 得到输出;由于输入的图片大小不一,所以这里我们使用的 spp pooling,spp pooling 在 pooling 的过程中需要计算 pooling 后的结果对应的像素点反映射到 feature map 上所占的范围,然后在那个范围中进行取 max 或者取 average。理解起来有点绕,看后面,你会豁然开朗。

ROI pooling具体操作如下

  1. 根据输入image,将 ROI 映射到 feature map 对应位置;
  2. 将映射后的区域划分为相同大小的 sections(sections数量与输出的维度相同);
  3. 对每个 sections 进行 max pooling 操作;

这样我们就可以从不同大小的方框得到固定大小的相应的 feature maps。值得一提的是,输出的 feature maps 的大小不取决于 ROI 和卷积 feature maps 大小。ROI pooling 最大的好处就在于极大地提高了处理速度。

ROI pooling example

我们有一个 8 ∗ 8 8*8 88 大小的 feature map,一个ROI,以及输出大小为 2 ∗ 2 2*2 22.

输入的固定大小的feature map
在这里插入图片描述
region proposal 投影之后位置(左上角,右下角坐标): ( 0 , 3 ) , ( 7 , 8 ) (0,3),(7,8) (0,3)(7,8)
在这里插入图片描述
将其划分为(2*2)个 sections(因为输出大小为2*2),我们可以得到:
在这里插入图片描述
对每个section做max pooling,可以得到:
在这里插入图片描述
整体过程如下:
在这里插入图片描述
说明:在此案例中 region proposals 是 5*7 大小的,在 pooling 之后需要得到 2*2 的,所以在 5*7 的特征图划分成 2*2 的时候不是等分的,行是 5/2,第一行得到2,剩下的那一行是3,列是7/2,第一列得到3,剩下那一列是4。

CNN 中的ROI Pooling

在CNN中,Pooling 层的作用主要有两个:

  • 引入 invariance,包括 translation-invariance,rotation-invariance,scale-invariance。
  • 完成 feature map 的聚合,实现数据降维,防止过拟合。

ROI Pooling 将不同输入尺寸的 feature map 通过分块池化的方法得到固定尺寸的输出,其思想来自于 SPPNet。

rbg 大神在 Fast RCNN 中使用时,将 sppnet 中多尺度的池化简化为单尺度,只输出固定尺寸为(w, h)的 feature map。
在这里插入图片描述
在 Fast R-CNN 网络中,原始图片经过多层卷积与池化后,得到整图的 feature map。而由 selective search 产生的大量 proposal 经过映射可以得到其在 feature map 上的映射区域(ROIs),这些ROIs即作为ROI Pooling层的输入。

ROI Pooling时,将输入的 h ∗ w h * w hw 大小的 feature map 分割成 H ∗ W H * W HW 大小的子窗口(每个子窗口的大小约为 h / H , w / W h/H,w/W h/Hw/W,其中H、W为超参数,如设定为7 x 7),对每个子窗口进行 max-pooling 操作,得到固定输出大小的 feature map。而后进行后续的全连接层操作。

ROI Pooling层的加入对R-CNN网络的改进

在R-CNN中,整个检测的流程是:
在这里插入图片描述
R-CNN网络的主要问题有:

  • 使用 selective search 产生 proposal,操作耗时,且不利于网络的整体训练和测试
  • 产生的 proposal 需要经过 warp 操作再送入后续网络,导致图像的变形和扭曲
  • 每一个 proposal 均需要单独进行特征提取,重复计算量大

ROI Pooling的加入,相对于R-CNN网络来说,至少有两个改善:

  • 由于ROI Pooling可接受任意尺寸的输入,warp操作不再需要,这有效避免了物体的形变扭曲,保证了特征信息的真实性
  • 不需要对每个proposal都提取特征,采用映射方式从整张图片的 feature map 上获取ROI feature区域

除了上述两个改进外,其实还有一点。R-CNN 中在获取到最终的 CNN 特征后先采用 SVM 进行类别判断,再进行 bounding-box 的回归得到位置信息。整个过程是个串行的流程。这极大地影响了网络的检测速度。Fast R-CNN 中则将 Classification 和 regression 的任务合二为一,变成一个 multi-task 的模型,实现了特征的共享与速度的进一步提升。

不知大家注意没有,Fast R-CNN 只是解决了R-CNN中的两点问题,而仍然沿用了 R-CNN 中 selective search 生成 proposal 的方法。这一方法产生的 proposal 即使经过NMS也会达到 2k~3k 个。一方面生成过程耗时耗力,另一方面给存储也带来压力。

那么,有没有办法改进呢?答案当然是 Yes。那就是 Faster R-CNN 的提出。

  • 32
    点赞
  • 137
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值