RPN的具体理解

RPN

 
1. RPN 部分的结构

RPN 
2. anchor,sliding windows,proposals

作者:马塔 
转载自:https://www.zhihu.com/question/42205480/answer/155759667 
来源:知乎

首先我们需要知道 anchor 的本质是什么,本质是 SPP(spatial pyramid pooling) 思想的逆向。而SPP本身是做什么的呢,就是将不同尺寸的输入 resize 成为相同尺寸的输出。所以SPP的逆向就是,将相同尺寸的输出,倒推得到不同尺寸的输入。接下来是 anchor 的窗口尺寸,这个不难理解,三个面积尺寸(128^2,256^2,512^2),然后在每个面积尺寸下,取三种不同的长宽比例(1:1,1:2,2:1).这样一来,我们得到了一共9种面积尺寸各异的 anchor 。示意图如下 
archor 
至于这个 anchor 到底是怎么用的,这个是理解整个问题的关键。 
下面是整个 Faster RCNN 结构的示意图: 
这里写图片描述

利用anchor是从第二列这个位置开始进行处理,这个时候,原始图片已经经过一系列卷积层和池化层以及relu,得到了这里的 feature:51x39x256(256是层数)

在这个特征参数的基础上,通过一个3x3的滑动窗口,在这个51x39的区域上进行滑动,stride=1padding=2,这样一来,滑动得到的就是51x39个3x3的窗口。对于每个3x3的窗口,作者就计算这个滑动窗口的中心点所对应的原始图片的中心点

然后作者假定,这个3x3窗口,是从原始图片上通过SPP池化得到的,而这个池化的区域的面积以及比例,就是一个个的anchor。换句话说,对于每个3x3窗口,作者假定它来自9种不同原始区域的池化,但是这些池化在原始图片中的中心点,都完全一样。这个中心点,就是刚才提到的,3x3窗口中心点所对应的原始图片中的中心点。

如此一来,在每个窗口位置,我们都可以根据9个不同长宽比例、不同面积的anchor,逆向推导出它所对应的原始图片中的一个区域,这个区域的尺寸以及坐标,都是已知的。而这个区域,就是我们想要的 proposal。所以我们通过滑动窗口和anchor,成功得到了 51x39x9 个原始图片的 proposal

接下来,每个 proposal 我们只输出6个参数:每个 proposal 和 ground truth 进行比较,把与ground truth 中重叠最大的 bounding box 的iou当成是这个proposal的iou, iou>0.7, 认为这个proposal是positiveiou<0.3, 认为这proposal是negative,我们希望positive的proposal包含前景的概率高一些,negative包含背景的概率高一些;iou位于这之间的不做处理。 
然后对每个proposal进行分类和bounding box regression:得到的前景概率和背景概率(2个参数)(对应图上的 cls_score);由于每个 proposal 和 ground truth 位置及尺寸上的差异,从 proposal 通过平移放缩得到 ground truth 需要的4个平移放缩参数(对应图上的 bbox_pred)。 
所以根据我们刚才的计算,我们一共得到了多少个anchor box呢? 51 x 39 x 9 = 17900 
约等于 20 k

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Faster R-CNN中,RPN(Region Proposal Network)是一种用于生成候选目标框的子网络。RPN的主要目标是通过在输入图像上滑动一个小的窗口(称为锚框),对每个锚框进行分类和回归,从而生成候选目标框。 RPN的工作流程如下: 1. 输入图像通过基础的卷积神经网络(通常是共享特征提取网络)进行特征提取,并获得一系列特征图。 2. 对于每个位置,在特征图上生成多个不同尺度和宽高比的锚框。这些锚框覆盖了输入图像的不同区域,并提供了不同尺度和宽高比的候选目标框。 3. 对于每个锚框,RPN通过一个分类分支和一个回归分支来预测其是否包含一个对象以及调整其边界框的位置。分类分支输出两个概率,表示锚框是前景(包含目标)或背景(不包含目标)的概率。回归分支则用于预测锚框相对于真实目标框的位置调整。 4. 根据分类分支的前景概率和回归分支的位置调整,选择具有高概率且经过位置调整的锚框作为候选目标框。 5. 最后,通过非极大值抑制(NMS)来消除高度重叠的候选目标框,以生成最终的目标检测结果。 RPN通过共享特征提取网络和锚框的多尺度生成,实现了高效的目标检测框架。它能够在不同尺度和宽高比的锚框上进行准确的目标分类和位置回归,从而提供了丰富的候选目标框供后续的目标检测任务使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值