什么是 RoI Align：解决 RoI Pooling 在像素对齐上的问题

原创于 2025-10-25 17:01:58 发布 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#RoI Align #Mask R-CNN #目标检测 #计算机视觉 #CV

CV 专栏收录该内容

117 篇文章

订阅专栏

1. RoI Align 的引言

RoI Align，全称为 Region of Interest Align（感兴趣区域对齐），是计算机视觉领域中物体检测和实例分割模型的关键组件。它主要用于从特征图中精确提取变尺寸的感兴趣区域（Region of Interest, RoI）的特征，而避免传统 RoI Pooling 中的量化误差。RoI Align 最早由 Kaiming He 等人在 2017 年的 Mask R-CNN 论文中提出，用于解决 RoI Pooling 在像素对齐上的问题，从而提升了模型在小物体和精确分割任务中的性能。通过双线性插值（bilinear interpolation），RoI Align 实现了子像素级别的特征采样，使输出特征图更精确。

在物体检测框架如 Faster R-CNN 中，RoI 表示潜在物体的边界框提案，这些提案大小不一。如果直接使用池化操作，会导致特征失真。RoI Align 的创新在于不量化 bin 边界，而是使用浮点坐标采样，这使得模型在 COCO 数据集上的 mask AP 提升了 1-2%。到 2025 年，RoI Align 已成为现代检测框架的标准，如在 NVIDIA PVA SDK 和 MATLAB Vision Toolbox 中被集成，用于 VPU 和 CNN 应用。

OI Align in MASK R-CNN 2.2.2 Flowchart of MASK R-CNN | Download ...

RoI Align 的核心优势在于其精确性，使其适用于医疗图像分析（如肿瘤分割）和自动驾驶（如行人检测）等需要高精度场景。

2. RoI Align 的背景和发展

RoI Align 的提出是为了解决 RoI Pooling 的局限性。在 RoI Pooling 中，特征图上的 RoI 被分成固定网格（如 7x7），但边界和 bin 大小需量化到整数像素，导致对齐误差，尤其对小物体。这在 Mask R-CNN 等分割任务中放大误差，因为 mask 需要像素级精确。

Mask R-CNN 论文于 2017 年发布，RoI Align 作为关键改进，避免了两次量化（RoI 边界和 bin 边界）。发展历史上，RoI Align 源于 SPP-Net 和 RoI Pooling，但引入 bilinear 插值。后续，RoI Warping 等变体出现，进一步优化。到 2025 年，RoI Align 被扩展到 3D 视觉和高效计算，如在 UnitX Labs 的机器视觉系统中用于消除量化误差。
Understanding Region of Interest - Part 2 (RoI Align) - Blog by ...

其影响延伸到 YOLO 和 EfficientDet 等模型的特征提取。

3. RoI Align 的核心原理

RoI Align 的工作原理是将 RoI 投影到特征图上，然后分成固定网格（如 7x7），但不量化边界。每个 bin 内均匀采样固定点（通常 4 个），使用 bilinear 插值计算值，然后池化（max 或 average）。

假设 RoI 为 (x1, y1, x2, y2)，输出大小 h x w。每个 bin 大小 (w_bin = (x2 - x1)/w, h_bin = (y2 - y1)/h)。对于 bin (i,j) 的采样点 (x,y) = (x1 + (i + 0.5) * h_bin, y1 + (j + 0.5) * w_bin)。使用 bilinear 从邻近像素插值。

4 Mask RCNN Arc.(Part3) - How RoI Pooling, RoI Warping & RoI Align Work

这确保了特征连续，避免失真。在实现中，PyTorch 的 torchvision.ops.roi_align 支持此操作。

4. RoI Align 的数学公式

令特征图为 f，采样点 (x,y) 在像素 (floor(x), floor(y)) 等之间。bilinear 插值：

$v = (1 - d x) (1 - d y) f (i, j) + d x (1 - d y) f (i + 1, j) + (1 - d x) d y f (i, j + 1) + d x d y f (i + 1, j + 1)$

其中 $i = f l oor (x), j = f l oor (y), d x = x - i, d y = y - j$ 。

对于每个 bin，平均 4 个采样点的 v 作为输出值。相比 RoI Pooling 的 max pooling in quantized bin，RoI Align 更精确。

反向传播：梯度通过插值权重传播到原像素。

5. RoI Align 与 RoI Pooling 的比较

RoI Align 与 RoI Pooling 相似，但关键差异在于量化。

相似点：两者都提取固定特征，用于全连接层。
差异点：
- RoI Pooling 量化边界和 bin，使用 max pooling；RoI Align 无量化，使用 bilinear + average。
- 准确率：RoI Align 提升 mask AP 1-2%，尤其小物体。
- 计算：RoI Align 稍多，但精度高。

表格比较：

方面	RoI Align	RoI Pooling
量化	无（浮点采样）	有（floor/ceil）
采样	双线性插值	Max pooling in bin
误差	低（子像素精确）	高（对齐误差）
应用	分割（如 Mask R-CNN）	检测（如 Faster R-CNN）