faster rcnn 中核心部分RPN网络的整理与理解

最新推荐文章于 2024-04-11 22:36:44 发布

wakojosin

最新推荐文章于 2024-04-11 22:36:44 发布

阅读量7.7k

点赞数 2

分类专栏：深度学习机器学习文章标签：深度学习 fasterrcnn 目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wakojosin/article/details/79363224

版权

机器学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

学习fasterrcnn检测已经有一段时间了，最近才把核心的RPN部分进行的理解和整理，理解的偏差还请各位大神指正，

RPN(RegionProposal Network)区域生成网络

1. 在五层conv，poolling，relu之后，取出conv5的输出，送给RPN网络；

layer {

name: "rpn_conv1"

type: "Convolution"

bottom: "conv5"

top: "rpn_conv1"

param { lr_mult: 1.0 }

param { lr_mult: 2.0 }

convolution_param {

num_output: 256

kernel_size: 3 pad: 1 stride: 1

weight_filler { type: "gaussian" std: 0.01 }

bias_filler { type: "constant" value: 0 }

}

}

layer {

name: "rpn_relu1"

type: "ReLU"

bottom: "rpn_conv1"

top: "rpn_conv1"

}

我们只需要一个3*3*256*256这样的一个4维的卷积核，就可以将每一个3*3的sliding window 卷积成一个256维的向量，相当于feature map每个点都是256-d。

anchors。按照尺度变换（128×128， 256*256,512*512，2:1, 1:1, 1:2）计算这256维向量每个像素的9个anchor，所谓anchors，实际上就是一组由rpn/generate_anchors.py生成的矩形。直接运行generate_anchors.py得到以下输出：

[[ -84. -40. 99. 55.]

[-176. -88. 191. 103.]

[-360. -184. 375. 199.]

[ -56. -56. 71. 71.]

[-120. -120. 135. 135.]

[-248. -248. 263. 263.]

[ -36. -80. 51. 95.]

[ -80. -168. 95. 183.]

[-168. -344. 183. 359.]]。

2.

计算每个像素256-d的9个尺度下的值，得到9个anchor，我们给每个anchor分配一个二进制的标签（前景背景）。我们分配正标签前景给两类anchor：1）与某个ground truth（GT）包围盒有最高的IoU重叠的anchor（也许不到0.7），2）与任意GT包围盒有大于0.7的IoU交叠的anchor。注意到一个GT包围盒可能分配正标签给多个anchor。我们分配负标签（背景）给与所有GT包围盒的IoU比率都低于0.3的anchor。非正非负的anchor对训练目标没有任何作用，由此输出维度为（2*9）18-d，anchor（label和概率）一共18维。

layer {

name: "rpn_cls_score"

type: "Convolution"

bottom: "rpn_conv1"

top: "rpn_cls_score"

param { lr_mult: 1.0 }

param { lr_mult: 2.0 }

convolution_param {

num_output: 18 # 2(bg/fg) *9(anchors)

kernel_size: 1 pad: 0 stride: 1

weight_filler { type: "gaussian" std: 0.01 }

bias_filler { type: "constant" value: 0 }

}

}

对前景anchor使用softmax进行分类，得到anchor类别以及softmax score。

3.

前2.）中已经计算出foreground anchors，使用bounding box regression回归得到预设anchor-box到ground-truth-box之间的变换参数，即平移（dx和dy）和伸缩参数（dw和dh），由此得到初步确定proposal。

Boundingbox regression原理http://blog.csdn.net/elaine_bao/article/details/60469036

4.

将预proposal利用feat_stride和im_info将anchors映射回原图，判断预proposal是否大范围超过边界，剔除严重超出边界的。

按照softmax score进行从大到小排序，提取前2000个预proposal，对这个2000个进行NMS(非极大值抑制)，将得到的再次进行排序，输出300个proposal。

继续：

对300个proposal进行ROIpooling提取出固定长度的特征送入全连接层

再进行softmax分类计算得分，进行boundingbox regression得到精确位置。

附上参考的连接，

http://www.cnblogs.com/zf-blog/p/7286405.html

http://lib.csdn.net/article/deeplearning/61641

http://blog.csdn.net/mllearnertj/article/details/53709766

如理解有偏差请留言指正！谢谢

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
faster rcnn 中核心部分RPN网络的整理与理解

学习fasterrcnn检测已经有一段时间了，最近才把核心的RPN部分进行的理解和整理，理解的偏差还请各位大神指正， RPN(RegionProposal Network)区域生成网络 1. 在五层conv，poolling，relu之后，取出conv5的输出，送给RPN网络；layer { name: "rpn_conv1" type: "Convolution" bottom: "conv5...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。