图解 RoIAlign 以及在 PyTorch 中的使用（含代码示例）

最新推荐文章于 2025-10-31 14:43:13 发布

原创

最新推荐文章于 2025-10-31 14:43:13 发布 · 2.2w 阅读

98 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #深度学习 #人工智能 #python #目标检测

RoIAlign是深度学习中用于目标检测和分割模型的关键操作，它修正了RoIPooling的精度问题。通过双线性插值，RoIAlign能将任意尺寸的特征图转换为固定大小的输出，提高定位精度。本文详细解释了RoIAlign的计算原理，并给出了PyTorch中的实现示例，包括在Faster R-CNN中的应用。

文章目录

RoIAlign 的用处

RoIAlign 用于将任意尺寸感兴趣区域的特征图，都转换为具有固定尺寸 H×W 的小特征图。

与RoI pooling一样，其基本原理是将 $h \times w$ 的特征划分为 $H \times W$ 网格，每个格子是大小近似为 $h / H \times w / W$ 的子窗口，然后将每个子窗口中的值最大池化到相应的输出网格单元中。想复习RoI pooling概念的可以看这篇。

RoIAlign 其实就是更精确版本的 RoIPooling，用双线性插值取代了RoIPooling中的直接取整的操作。

下面用一个具体图例看下 RoIAlign 计算原理。

RoIAlign 计算原理

输入一个feature map，对于每个不同尺寸的proposed region，需要转换成固定大小 $H \times W$ 的 feature map，H和W是这一层的超参数。
在这里插入图片描述
黑色粗框部分是一个

最低0.47元/天解锁文章

11 条评论

seeney 2024.12.05
很详细，真不错

Upupup6 2022.10.17
为什么在计算双线性插值的时候，黄色的点，对应的是右下角的黄色矩形呢？
- Upapa回复枫翼 2024.04.25
  这真是米老鼠在米奇妙妙屋里吃着妙脆角，妙极了
- 枫翼回复Upupup6 2023.02.17
  我们要计算的是黑色的点的数值，在图上可以很明显的看到，黑色的点最“靠近”黄色的点，说明黄色的点权值应该最大，那么对应的最大权值就是黄色的面积

Cleo_Gao 2022.07.26
测试了几组 bbox： [code=python] box = torch.tensor([[0.0, 0.0, 0.0, 0.0]]) # [[0.5481352806091309, 0.6722070574760437], [0.5159101486206055, 0.6161601543426514]] box = torch.tensor([[0.0, 0.0, 0.1, 0.1]]) # [[0.5481352806091309, 0.6722070574760437], [0.5159101486206055, 0.6161601543426514]] box = torch.tensor([[0.0, 0.0, 0.2, 0.2]]) # [[0.5481352806091309, 0.6722070574760437], [0.5159101486206055, 0.6161601543426514]] box = torch.tensor([[0.0, 0.0, 1.0, 1.0]]) # [[0.4762192368507385, 0.3765861988067627], [0.4661005139350891, 0.18878141045570374]] box = torch.tensor([[0.0, 0.0, 1.1, 1.1]]) #[[0.4617269039154053, 0.44408485293388367], [0.436944842338562, 0.2643372416496277]] box = torch.tensor([[0.0, 0.0, 2.0, 2.0]]) #[[0.3294353783130646, 0.2632548213005066], [0.29664146900177, 0.14682047069072723]] [/code] 为什么 bbox 坐标是[0,0,0,0]的时候返回不是 0，而且也不会报错……