（RegionProposal Network)RPN网络结构及详解

最新推荐文章于 2025-06-06 08:48:19 发布

moonuke

最新推荐文章于 2025-06-06 08:48:19 发布

阅读量10w+

点赞数 113

CC 4.0 BY-SA版权

分类专栏：检测识别

本文链接：https://blog.csdn.net/qq_36269513/article/details/80421990

本文详细介绍了Region Proposal Network (RPN)的工作原理，包括anchors的概念，使用SOFTMAX进行前景和背景分类，bounding box regression进行框的微调，以及NMS（非极大值抑制）去除重复的检测框。RPN通过在特征图上滑动窗口生成候选区域，再通过回归优化得到更精确的物体框。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RPN(RegionProposal Network)区域生成网络

Faster-RCNN的核心。在这里整理。

1.anchors。

特征可以看做一个尺度51*39的256通道图像，对于该图像的每一个位置，考虑9个可能的候选窗口：三种面积{128,256,512}×{128,256,512}×三种比例{1:1,1:2,2:1}{1:1,1:2,2:1}。这些候选窗口称为anchors。下图示出51*39个anchor中心，以及9种anchor示例。
这里写图片描述

{1282,2562,5122}×{1282,2562,5122}×三种比例{1:1,1:2,2:1}{1:1,1:2,2:1}。这些候选窗口称为anchors。下图示出51*39个anchor中心，以及9种anchor示例。
这里写图片描述

2.SOFTMAX的两支

计算每个像素256-d的9个尺度下的值，得到9个anchor，我们给每个anchor分配一个二进制的标签（前景背景）。我们分配正标签前景给两类anchor：1）与某个ground truth（GT）包围盒有最高的IoU重叠的anchor（也许不到0.7），2）与任意GT包围盒有大于0.7的IoU交叠的anchor。注意到一个GT包围盒可能分配正标签给多个anchor。我们分配负标签（背景）给与所有GT包围盒的IoU比率都低于0.3的anchor。非正非负的anchor对训练目标没有任何作用，由此输出维度为（2*9）18，一共18维。

假设在conv5 feature map中每个点上有k个anchor（默认k=9），而每个anhcor要分foreground和background，所以每个点由256d feature转化为cls=2k scores；而每个anchor都有[x, y, w, h]对应4个偏移量，所以reg=4k coordinates

补充一点，全部anchors拿去训练太多了，训练程序会在合适的anchors中随机选取128个postive anchors+128个negative anchors进行训练。

-------------------------------------------------------分割线-------------------------------------------------------------------

以上是传统的RPN，下面是Faster R-CNN 的RPN部分。

3.bounding box regression

前2.）中已经计算出foreground anchors，使用bounding box regression回归得到预设anchor-box到ground-truth-box之间的变换参数，即平移（dx和dy）和伸缩参数（dw和dh），由此得到初步确定proposal。

如图9所示绿色框为飞机的Ground Truth(GT)，红色为提取的foreground anchors，那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准，这张图相当于没有正确的检测出飞机。所以我们希望采用一种方法对红色的框进行微调，使得foreground anchors和GT更加接近。