ROI Align 10s，1min和10min的三种理解。_池化层大小设置为3-CSDN博客

本文链接：https://blog.csdn.net/IanYue/article/details/126665535

文章目录

10s
1min
- 原理
- Roi Pooling vs Roi Align
10min

本文从10秒，1分钟，10分钟的三种方式去理解ROI Align。

10s

ROI Pooling的改进版，解决了映射误差和均分误差问题，提高了后续处理的准确率。ROI Align取消量化操作，主要是利用虚拟像素的方法，即用双线性插值的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作。

1min

原理

因为feature map当中是一叠矩阵，而矩阵下标均为整数，可是我们预测框预测结果并不为整数，ROI pooling采取的方式是向下取整，把它强行变成整数框，使得它的框和feature map的边界一致。每次这样做时，都会丢失有关该目标的部分信息。这降低了整个模型的精度。

在这里插入图片描述

在 ROI 中，卷积图被数字化（上图左上图）：目标特征图的单元边界被迫与输入特征图的边界重新对齐。因此，每个目标单元格的大小可能不同（左下图），而这使得物体的预测边框与真实边框存在一个差距，这个差距在大物体检测时，误差可以接受，但在小物体检测时，误差就显得尤为难以接受。Mask R-CNN 使用ROI Align，它不会取整单元格的边界（右上）并使每个目标单元具有相同的大小（右下）。它还应用插值来更好地计算单元格内的特征图值。例如，通过应用插值，现在左上角的最大特征值从 0.8 变为 0.88。

Roi Pooling vs Roi Align

在这里插入图片描述

Faster RCNN中的Roi Pooling

首先，我们经过一些卷积层得到了如图左侧的输入特征图。
然后根据region proposal（区域提议），我们使用一个 7×5 的区域作为 RoI Pooling 的输入，以输出 2×2 的特征图。
每个黑色矩形都经过四舍五入以具有整数长度以供以后进行池化。
对于输出特征图的每个值，它们只选取每个黑色矩形的最大值，称为最大池化（Max Pooling）。

在这里插入图片描述

Mask R-CNN 中的 RoIAlign

不是将黑色矩形四舍五入以获得整数长度，而是使用相同大小的黑色矩形。
基于特征图值重叠的区域，取各单元格中心位置，使用双线性插值得到中间池化特征图，如图右下角所示。
然后在这个中间池化特征图上执行最大池化（Max pooling）。

10min

ROI Pooling的问题

数据丢失。
在这里插入图片描述

量化中的 RoI 池化损失（深蓝色和浅蓝色），数据增益（绿色）

背景

模型采用大小为512x512x3（宽 x 高 x RGB）的图像输入，VGG16 将其映射到16x16x512特征图。比例因子是32。
在这里插入图片描述

模型特征映射过程

在这里插入图片描述
接下来，我们使用其中一个建议的 RoI（145x200 box）并尝试将其映射到特征图上。因为不是我们所有的对象尺寸都可以除以 32，所以我们将 RoI 放置在不与网格对齐的位置。

(9.25,6) — 左上角
6.25——宽度
4.53 — 高度

在这里插入图片描述

再次选择池化层的大小为3x3，因此最终结果形状为3x3x512（这只是一个任意示例，以便更容易在图像上显示。您的池化层可能具有不同的大小）。

ROI Align的细节

在这里插入图片描述

映射和池化时的量化

RoI Pooling 和 RoI Align 的主要区别在于量化。RoI Align 没有使用量化来进行数据池化。而Fast R-CNN则两次应用了量化。第一次是在映射过程中，第二次是在池化过程中。

在这里插入图片描述

ROI Align框大小

如上，我们可以通过将原始 RoI 划分为 9 个大小相等的框并在每个框内应用双线性插值来跳过它。

在这里插入图片描述

将box放入映射的 RoI 中。每个框的大小由映射的 RoI 的大小和池化层的大小决定。我们使用的是 $3\times3$ 的池化层，因此我们必须将映射的 RoI ( $6.25\times4.53$ ) 除以 3。这给了我们一个高度为1.51和宽度为2.08的框。

在这里插入图片描述

采样点的分布

我们注意到左上角，它覆盖了六个不同的网格单元。现在要为池化层提取值，我们必须从中采样一些数据。要对数据进行采样，我们必须在该框内创建四个采样点。

我们可以通过将框的高度和宽度除以 3来计算每个点的位置。
计算第一个点（左上角）坐标，如下所示：

$X = X_{box} + (width/3) * 1 = 9.94$
$Y = Y_{box} + (height/3) * 1 = 6.50$

要计算第二个点（左下角），我们只需要更改 Y：

$X = X_{box} + (width/3) * 1 = 9.94$
$Y = Y_{box} + (height/3) * 2 = 7.01$
现在，当我们拥有所有点时，我们可以将双线性插值应用于此框的样本数据。双线性插值通常用于图像处理中对颜色进行采样，其方程如下所示：

图形解释如下：
在这里插入图片描述

第一个点的双线性插值

我们从盒子中取出第一个点时，我们可以将它与最近的相邻单元格连接（连接到单元格的正中间，去代表单元格的值），除非它已经被占用。在这种情况下，我们的点坐标为(9.44, 6.50)。单元格左上角最近的中间是(9.50, 6.50)（如果我们的点在网格上仅高 0.1，则为 (9.50, 5.50)）。然后我们必须选择一个左下角，最近的一个是(9.50, 7.50)。按照同样的规则，我们选择(10.50, 6.50)和(10.50, 7.50)作为右上角和右下角的点。图上是线性插值的计算过程。

在这里插入图片描述

第二点的双线性插值

左上角：(10.50, 6.50)
左下角：(10.50, 7.50)
右上角：(11.50, 6.50)
右下角：(11.50, 7.50)

在这里插入图片描述

第三点的双线性插值

左上角：(9.50, 6.50)
左下角：(9.50, 7.50)
右上角：(10.50, 6.50)
右下角：(10.50, 7.50)

在这里插入图片描述

第四点的双线性插值

左上角：(10.50, 6.50)
左下角：(10.50, 7.50)
右上角：(11.50, 6.50)
右下角：(11.50, 7.50)

现在我们已经计算了所有的点，并且可以对它们应用Max Pooling（最大值池化）：
在这里插入图片描述

第一个box的池化

在这里插入图片描述

RoIAlign的池化过程

在这里插入图片描述

此过程适用于每一层，因此最终结果包含 512 层（与特征图输入相同）

请注意，即使我们没有将采样点放在特征图中的所有单元格中，我们也会通过双线性插值从它们中提取数据。

在这种情况下，单元格 11x6、11x7、11x8、11x9、11x10、13x6、13x7、13x8、13x9、13x10、15x6、15x7、15x8、15x9、15x10 里面不会有任何点。我们看上面第二个点计算（第一个框内的第二个点），即使该点位于单元格 10x6 中，它仍然使用单元格 11x6 和 11x7 进行双线性插值。

我们可以比较一下 RoIAlign 和 RoIPooling 的数据丢失/数据增益，我们可以看到 RoIAlign 使用了整个区域，因此也更加精细。