【论文阅读基础知识整理】区域建议网络RPN

区域建议网络(RPN)是深度学习目标检测中的关键组件,它利用特征图生成候选框。RPN输入为预处理后的特征图,输出包括物体存在概率和候选框坐标。网络通过3x3卷积获取256维特征,随后使用1x1卷积预测物体得分和坐标。核心概念是Anchor,它们在原始图上分布,对应不同尺度和宽高比,用于生成多个候选框。正负样本分类及非极大抑制(NMS)进一步优化候选框,以提高检测准确性。
摘要由CSDN通过智能技术生成

【论文阅读基础知识整理】区域建议网络RPN

1.RPN的输入与输出

​ 在阅读论文的过程中,网络结构图是最重要的内容之一。而要搞清楚网络结构图,得清楚其输入与输出。

RPN的输入: 经过特征提取网络得到的特征图(feature map)。

RPN的输出: 在原图上我们要获得的是候选框,候选框通过框中有无物体,坐标等数据进行表示。(输出即为这些数据)

2.RPN网络结构的介绍

img

​ 这张图很清楚的展示了RPN的网络结构,可以看到一开始的输入是特征图(feature map),最后输出为得分(score)和坐标(coordinates)。

​ feature map通过sliding window(3x3的卷积)得到一个256 x (W x H)的向量,可以理解为有W x H个256维的向量,然后我们对每一个256维的向量分别进行两次1x1的卷积得到2 x (W x H)和4 x (W x H)的特征图,可以理解为这两个特征图中包含了WxH个结构,每个结果包含了两个分数(物体在或不在候选框的概率),四个坐标(x,y,w,h)。

3.RPN核心:Anchor

​ anchor也叫锚点,这里有个很重要的细节anchor对应的是原始图而不是特征图
在这里插入图片描述
从上图看,可以这么理解,在特征图中的每个像素点映射到原图就是一个框。例如原始图的W与特征图的W比例为8:1,则特征图中的一个像素点映射到原始图中就是一个8x8的框。然后我们将这个8x8的框的中心点或者右上角的点(这里在代码中可以自己设置)作为anchor锚点。
获得anchor后,以anchor为中心得到9个基本候选框(三种尺度,三种比例尺),这里的9也对应了RPN结构图中的k。所以最后可以获得9xWxH个候选框遍布整个原始图,每个候选框又包含了6个信息(框中有无物体的得分,以及候选框的四个坐标),RPN网络结构图中每个256维向量可以视作一个像素点,映射到原图得到9个候选框(18(2x9)个分数,36(4x9)个坐标)。
在这里插入图片描述
​ 得到候选框后,通过与ground truth的IOU进行正负样本的分类,以及NMS等操作进行候选框的保留,回归出准确的候选区域。(这部分不详细解释)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值