【论文阅读基础知识整理】区域建议网络RPN

最新推荐文章于 2024-09-16 10:45:33 发布

JMU-HZH

最新推荐文章于 2024-09-16 10:45:33 发布

阅读量1.2k

点赞数 3

文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_45603919/article/details/113862976

版权

区域建议网络（RPN）是深度学习目标检测中的关键组件，它利用特征图生成候选框。RPN输入为预处理后的特征图，输出包括物体存在概率和候选框坐标。网络通过3x3卷积获取256维特征，随后使用1x1卷积预测物体得分和坐标。核心概念是Anchor，它们在原始图上分布，对应不同尺度和宽高比，用于生成多个候选框。正负样本分类及非极大抑制（NMS）进一步优化候选框，以提高检测准确性。

摘要由CSDN通过智能技术生成

文章目录

- 【论文阅读基础知识整理】区域建议网络RPN

【论文阅读基础知识整理】区域建议网络RPN

1.RPN的输入与输出

在阅读论文的过程中，网络结构图是最重要的内容之一。而要搞清楚网络结构图，得清楚其输入与输出。

RPN的输入： 经过特征提取网络得到的特征图（feature map）。

RPN的输出： 在原图上我们要获得的是候选框，候选框通过框中有无物体，坐标等数据进行表示。（输出即为这些数据）

2.RPN网络结构的介绍

这张图很清楚的展示了RPN的网络结构，可以看到一开始的输入是特征图（feature map），最后输出为得分（score）和坐标（coordinates）。

feature map通过sliding window（3x3的卷积）得到一个256 x (W x H)的向量，可以理解为有W x H个256维的向量，然后我们对每一个256维的向量分别进行两次1x1的卷积得到2 x (W x H)和4 x (W x H)的特征图，可以理解为这两个特征图中包含了WxH个结构，每个结果包含了两个分数（物体在或不在候选框的概率），四个坐标（x，y，w，h）。

3.RPN核心：Anchor

anchor也叫锚点，这里有个很重要的细节anchor对应的是原始图而不是特征图。
在这里插入图片描述
从上图看，可以这么理解，在特征图中的每个像素点映射到原图就是一个框。例如原始图的W与特征图的W比例为8:1，则特征图中的一个像素点映射到原始图中就是一个8x8的框。然后我们将这个8x8的框的中心点或者右上角的点（这里在代码中可以自己设置）作为anchor锚点。
获得anchor后，以anchor为中心得到9个基本候选框（三种尺度，三种比例尺），这里的9也对应了RPN结构图中的k。所以最后可以获得9xWxH个候选框遍布整个原始图，每个候选框又包含了6个信息（框中有无物体的得分，以及候选框的四个坐标），RPN网络结构图中每个256维向量可以视作一个像素点，映射到原图得到9个候选框（18（2x9）个分数，36（4x9）个坐标）。
在这里插入图片描述
得到候选框后，通过与ground truth的IOU进行正负样本的分类，以及NMS等操作进行候选框的保留，回归出准确的候选区域。（这部分不详细解释）