ROI

最新推荐文章于 2024-09-16 13:53:13 发布

巴拉拉小魔仙~

最新推荐文章于 2024-09-16 13:53:13 发布

阅读量297

点赞数

分类专栏：深度学习文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_38942159/article/details/106058150

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【Mask RCNN】ROI Align的基本原理
ROI Align 是 ROI Pooling的改进版本，出现在Mask RCNN论文里。在检测任务中，将ROI Pooling变为ROI Align可以提升检测模型的准确率，在voc2007数据集的提升没有coco的提升大，主要是因为coco中的小目标较多，在coco中主要提升的是小物体的准确率，因为ROI Align相比ROI Pooling主要解决的是misalignment，而小物体受misalignment的影响较大。

什么是misalignment呢？这还要从ROI Pooling讲起。

1、ROI Pooling的局限性：

在two-stage的检测框架中，ROI Pooling的作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图，以便进行后续的分类和包围框回归操作。但是在模型中，回归模型得到的坐标都是浮点数，而池化后的特征图要求尺寸固定，ROI Pooling为此进行了两次量化操作。

将候选框边框量化为整数坐标（是四舍五入还是其他方法呢？）；
将量化后的边界区域平均分成k*k个单元，对每一个单元的边界进行量化。

在经过这两次量化后，此时的边框已经和最开始回归得到的坐标有了一定的偏差，这个偏差会影响检测或分割的准确度，这就是misalignment的问题。

下面举个例子，下图中的图片长宽为800800，其中有一个665665的包围框，经过VGG16特征图缩放到原来的原来的1/32,其中800/32=25，但是665/32=20.78，ROI Pooling直接把它量化为20。接下来把框内的特征池化为77这么大，因此将上述包围框平均分割成77个矩形区域。显然，每个矩形区域的边长为2.86，ROI Pooling直接把它量化为2。经过这两次量化，候选区域已经出现了明显的偏差（图中绿色的部分）。更重要的是，在该层特征图上0.1个像素偏差，缩放到原图就是3.2个，那么0.8的偏差在原图上就是接近30个像素点的偏差，这一点差别不容小觑。
在这里插入图片描述
2、ROI Align的主要思想和方法

取消量化操作！

遍历每一个候选区域，保持浮点数边界不做量化；
将候选区域分割成k*k个单元，每个单元的边界也不做量化。
将每个单元中计算固定四个坐标位置，用双线性插值的方法计算出这四个位置的值，然后进行最大池化操作。

其中第三点需要进一步解释：每个单元计算固定四个坐标位置？为什么是四个？怎么选这四个坐标位置？首先解释固定，固定位置是指每一个单元中按照固定规则确定的四个位置，比如在这个单元中的采样数是4，那么就把这个单元平均分割成四个小方块，四个位置就是四个小方块的中心点。显然这些采样点的坐标一般是浮点数，需要使用差值的方法得到。那为什么是4个不是1个或者其他数量呢？作者实现得出4的性能是最好的。
在这里插入图片描述