对RPN网络的理解

璇焱如柳

已于 2024-04-11 22:46:19 修改

阅读量632

点赞数 25

分类专栏：深度学习文章标签：目标检测计算机视觉

于 2024-04-11 22:36:44 首次发布

本文链接：https://blog.csdn.net/a1367666195/article/details/137654088

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章只是粗浅理解，并不详细，可能有不准确的地方，敬请指正

0. 概述

RPN， Reigion Proposal Network，中文名称为候选区域提取网络，最早在faster RCNN一文中提出，用于提取目标候选框。

1. 产生动机

RCNN系列的三篇文章都是two-stage目标检测方法，将目标的检测和识别分开来做，也就是说先找到哪些区域可能存在目标，然后在将这个框送进目标识别网络。在faster RCNN的前作，RCNN和fast RCNN网络中，使用的SS（Selective Search）方法，该方法计算量巨大，基本上2秒才能处理一幅图像，缺点太大。因此针对这一问题，faster RCNN作者在文中提出了RPN网络来代替SS算法，将速度提升了将近10倍。

2. 网络结构

RPN网络还是要结合faster RCNN来说，faster RCNN的网络结构如下：
在这里插入图片描述
faster RCNN网络分为三个部分：
1、用于提取特征的CNN网络，也就是backbone；
2、用于提取候选框的RPN网络；
3、用于目标识别的识别网络。

在feature map进入RPN网络后，会首先经过一个 $3 \times 3$ 的卷积层，然后分别经过两路 $1 \times 1$ 的卷积层，上边一路输出的是候选框的置信度，即该框有目标的置信度；下边的框输出的是候选框的位置信息。
在这里插入图片描述
为了获取proposal（候选框），在最后共享的卷积层输出的卷积特征图上滑动一个小的网络，也就是那个 $3 \times 3$ 的卷积层，每个位置会生成 $k$ 个proposal，在论文里边 $k = 9$ ，也就是说如果feature map的尺寸是 $M \times N$ ，那么会生成 $M \times N \times k$ 个proposal。

对于分类网络的输出，输出尺寸为 $M \times N \times k \times 2$ ，为什么每个框输出两个类别呢，可以看到分类网络里边有一个softmax层，这是一个二分类网络
对于回归网络的输出，每个proposal输出4个位置数据，于是输出的尺寸为 $M \times N \times k \times 4$