ROI Pooling层详解

目标检测typical architecture 通常可以分为两个阶段:

(1)region proposal:给定一张输入image找出objects可能存在的所有位置。这一阶段的输出应该是一系列object可能位置的bounding box。这些通常称之为region proposals或者 regions of interest(ROI)。

(2)final classification:确定上一阶段的每个region proposal是否属于目标一类或者背景。

这个architecture存在的一些问题是:

  • 产生大量的region proposals 会导致performance problems,很难达到实时目标检测。
  • 在处理速度方面是suboptimal。
  • 无法做到end-to-end training。

这就是ROI pooling提出的根本原因。

ROI pooling层能实现training和testing的显著加速,并提高检测accuracy。该层有两个输入:

  • 从具有多个卷积核池化的深度网络中获得的固定大小的feature maps;
  • 一个表示所有ROI的N*5的矩阵,其中N表示ROI的数目。第一列表示图像index,其余四列表示其余的左上角和右下角坐标;

ROI pooling具体操作如下:

  • (1)根据输入image,将ROI映射到feature map对应位置;
  • (2)将映射后的区域划分为相同大小的sections(sections数量与输出的维度相同);
  • (3)对每个sections进行max pooling操作;

这样我们就可以从不同大小的方框得到固定大小的相应 的feature maps。值得一提的是,输出的feature maps的大小不取决于ROI和卷积feature maps大小。ROI pooling 最大的好处就在于极大地提高了处理速度。

ROI pooling example

考虑一个8*8大小的feature map,一个ROI,以及输出大小为2*2.

  • (1)输入的固定大小的feature map 

                                               

 

  • (2)region proposal 投影之后位置(左上角,右下角坐标):(0,3),(7,8)。

                                               

  • (3)将其划分为(2*2)个sections(因为输出大小为2*2),我们可以得到:

                                             

  • (4)对每个section做max pooling,可以得到:

                                                                          

 

ROI pooling总结:

(1)用于目标检测任务;(2)允许我们对CNN中的feature map进行reuse;(3)可以显著加速training和testing速度;(4) 允许end-to-end的形式训练目标检测系统。

Fr:https://deepsense.ai/region-of-interest-pooling-explained/#top

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ROI Pooling是一种在深度学习中常用的空间金字塔池化技术,主要用于目标检测和物体识别任务。ROI是“Region of Interest”的缩写,指的是图像中包含有我们想要检测或识别的物体的区域。 在传统的卷积神经网络中,池化的目的是通过降维来减少计算量并且提取图像特征。然而,对于目标检测任务来说,不同物体的大小和形状是多样的,直接对整个图像进行池化可能会导致信息的丢失。而ROI Pooling的出现解决了这个问题。 ROI Pooling分为两个步骤:首先,根据预测的物体位置和大小,将图像分割为一系列特定大小的固定区域。然后,在每个区域中进行池化操作。具体来说,ROI Pooling划分固定大小的网格,然后将每个网格内的特征图划分为均等的子区域(通常是2x2的网格)。在每个子区域内执行最大池化操作,得到每个子区域的最大值。最后,这些最大值被串接起来形成ROI Pooling的输出。 通过ROI Pooling的操作,不同大小和形状的物体可以被映射到固定的尺寸,从而保留了物体的空间信息。这对于物体的位置和尺度不变性是非常重要的。ROI Pooling的输出可以作为后续分类器的输入,用于检测和识别图像中的物体。 总之,ROI Pooling是一种用于目标检测和物体识别任务的网络,它可以将图像中感兴趣的区域映射到固定尺寸,并保留了物体的空间信息。这个的出现极大地提高了物体检测和识别的准确性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值