Precise RoI Pooling（PrRoI Pooling）笔记

最新推荐文章于 2022-11-02 19:20:03 发布

越野者

最新推荐文章于 2022-11-02 19:20:03 发布

阅读量8.1k

点赞数 13

分类专栏：物体检测（Object detection）深度学习（Deep learning）论文笔记（Paper notes）数字图像处理、模式识别与深度学习文章标签： PrRoI Pooling 目标检测 Pooling 深度学习

本文链接：https://blog.csdn.net/discoverer100/article/details/90519423

版权

Precise ROI Pooling（PrRoI Pooling）方法由旷视科技于ECCV 2018上提出，作为他们的论文Acquisition of Localization Con dence for Accurate Object Detection中的一部分。其主要思想如下：

给定一个图像特征图 ${\mathcal F}$ ，令 $(i, j)$ 为特征图上的坐标， $w_{i,j}$ 为其特征图对应位置 $(i, j)$ 的权值。采用双线性插值以避免量化操作，那么可以认为特征图也是连续的，有：

$y)=\sum_{i, j} I C(x, y, i, j) \times w_{i, j}$

其中， $j)=\max (0,1-|x-i|) \times \max (0,1-|y-j|)$ ，它是插值系数。注意，这里面的 $w$ 和 $f$ 其实都是特征图，只不过 $w$ 是离散的特征图（一般的特征图都是离散的）， $f$ 是经过插值后连续的特征图。

为什么这里非要将离散的特征图转换为连续的特征图呢？这里主要是为了解决量化操作带来的累积误差问题，具体可以参考 https://www.jianshu.com/p/2a5ffca8b861 这篇文章，分析得比较仔细。

现在我们为某个RoI指定它的一个bin， ${bin}=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right)\right\}$ ，其中 $\left(x_{1}, y_{1}\right)$ 和 $\left(x_{2}, y_{2}\right)$ 分别表示矩形框的左上角和右下角坐标，如下图所示（当然，这个坐标值是连续数值，因为已经做过插值了）：
在这里插入图片描述
根据上述得到的bin（其坐标是连续数值）和原始的特征图 ${\mathcal F}$ ，我们可以进行一种pooling操作，它涉及到二重积分：

$\operatorname{PrPool}(b i n, \mathcal{F})=\frac{\int_{y 1}^{y 2} \int_{x 1}^{x 2} f(x, y) d x d y}{\left(x_{2}-x_{1}\right) \times\left(y_{2}-y_{1}\right)}$

从上面的公式可以看出，PrPool的主要计算思想是对bin区域内的数值进行求和，然后除以bin的面积。

这里贴一张论文中关于描述RoI Pooling、RoI Align和PrRoI Pooling的对比示意图：
在这里插入图片描述
上图中红色虚线表示候选图像在特征图中的位置。从图中可以看出，RoI Pooling的思路最为基础，其方法是直接做了取整处理，损失了精度。RoI Align方法则首先进行插值，然后将候选图像区域分为若干个子区域（图中的示例是4个子区域，表现为4个实心红点），最后pooling的时候对这4个子区域做均值处理。与RoI Align方法类似，PrRoI Pooling也做了插值处理，将离散的特征图数据映射到一个连续空间，但与RoI Align不同之处在于，它并没有再划分子区域，而是使用二重积分再求均值的方式实现pooling。相比于RoI Align方法，PrRoI Pooling主要解决了N的取值难以自适应的问题。

此外我们还可以发现， $\operatorname{PrPool}(b i n, \mathcal{F})$ 是可以求偏导数的，比如对 $x_1$ 求偏导数，有：

最低0.47元/天解锁文章

越野者

关注

13
点赞
踩
47

收藏

觉得还不错? 一键收藏
2
评论
Precise RoI Pooling（PrRoI Pooling）笔记

Precise ROI Pooling（PrRoI Pooling）方法由旷视科技于ECCV 2018上提出，作为他们的论文Acquisition of Localization Condence for Accurate Object Detection中的一部分。其主要思想如下：
复制链接

扫一扫

专栏目录