rpn产生proposals_目标检测中Rpn的简单理解(Faster R-CNN部分)

1. 锚点anchor的真实含义:

特征图的某一像素对应的原始图像的某一个像素,本质上指的是特征图上当前滑窗(也就是3*3的卷积核)中心在原始像素空间的映射点。

即anchor是在原始图像上然后以这个锚点为中心,配上9个基本的候选框。

特征图作为RPN输入,首先是512channel,3*3kernel的卷积层,然后并行两个1*1卷积,这里分类只分为有和无两类,即候选框有没有目标,至于目标到底是什么先不管。

每一个anchor对应K个候选框,每一个候选框的取值(即有和无,用概率表示),所以每一个anchor对应的输出应该为一个2k维度的向量,分类卷积使用2k个channel。回归对应4K个channel。

其中,i表示mini-batch中第i个anchor,pi表示第i个anchor是前景的概率,当第i个anchor是前景时pi为1反之为0,ti表示预测的bounding box的坐标,ti∗为ground truth的坐标。 一个是交叉熵损失,一个是smooth_L1损失函数。

2. RPN生成RoIs的过程(ProposalCreator)如下:

对于每张图片,利用它的feature

map, 计算 (H/16)×

(W/16)×9(大概20000)个anchor属于前景的概率,以及对应的位置参数。(这里的W、H表示原始图像的宽和高,前面已经有说过了)

选取概率较大的12000个anchor,利用回归的位置参数,修正这12000个anchor的位置,得到RoIs,利用非极大值((Non-maximum

suppression, NMS)抑制,选出概率(rpn只分类为前景和背景,提供的是前景最大)最大的2000个RoIs

注意:在inference的时候,为了提高处理速度,12000和2000分别变为6000和300。

3. RPN的输出:

RoIs(形如2000×4或者300×4的tensor)RoI

Pooling 是一种特殊的Pooling操作,给定一张图片的Feature map (512×H/16×W/16)

和128个候选区域的座标(128×4),RoI Pooling将这些区域统一下采样到

(512×7×7),就得到了128×512×7×7的向量。可以看成是一个batch-size=128,通道数为512,7×7的feature map。

FC 21

用来分类,预测RoIs属于哪个类别(20个类+背景)

FC 84

用来回归位置(21个类,每个类都有4个位置参数)

4. RPN网络中bounding-box回归的实质:

其实就是计算出预测窗口,然后以生成的anchor为基准,计算Ground

Truth对其的平移缩放变化参数,以及预测窗口【可能第一次迭代就是anchor】对其的平移缩放参数,因为是以anchor窗口为基准,所以只要使这两组参数越接近,以此构建目标函数求最小值,那预测窗口就越接近Ground

Truth,达到回归的目的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值