Faster Rcnn学习

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


原理论述

注:笔记还是得做啊,不然看了就真滴白看了…,SO,为自己的学习做一个梳理,浅浅的做一下笔记。
网络结构

一、Conv layers

采用backbone 提取image 的feature maps .这一层主要是提取特征网络,可采用VGG,ResNet等经典网络,不多赘述。
VGG 的feature maps 51277

二、PRN(Region Proposal Networks)

用于推荐候选区域,这个网络是用来代替之前的search selective的。输入为图片(因为这里RPN网络和Fast R-CNN共用同一个CNN,所以这里输入也可以认为是featrue maps),输出为多个候选区域。

1.Anchor

在这里插入图片描述
在RPN中,作者提出了anchor。Anchor是大小和尺寸固定的候选框。论文中用到的anchor有三种尺寸和三种比例,如上图所示,三种尺寸分别是小(蓝128)中(红256)大(绿512),三个比例分别是1:1,1:2,2:1。3×3的组合总共有9种anchor。
提出的候选区域是在原图上的区域,
特征图
对于特征图上的每个33的滑动窗口,计算出滑动窗口中心点对应原始图像上的中心点(源图像的高除以特征图的高,然后取整得到scale,将特征图的点的位置乘Scale得到原图的中心点的位置),并计算出k(k=9)个anchor boxes,2K scores ,4K coordinates 2K scores ,4K coordinates
cls 代表 背景的概率0.1,是检测目标的概率0.9 。 cls 采用2K 个1
1卷积核大小进行分类
reg 代表 每一个anchor 的中心点x,y ,和W、H坐标。 reg 采用4K 个1*1卷积核大小进行预测。
感受野:VGG-228
ZF-171

Faster RCNN 中ZF网络 feature map 中33滑动窗口在原图中感受野的大小计算
在这里插入图片描述
对一张1000
6003的图像,大约有6010*9个anchor,忽略跨越边界的,剩下6000个,由于RPN生成的候选框之间存在大量重叠,基于候选框CLS的得分,采用非极大抑值,IOU为0.7,由此剩下约2K个。

positive:IOU 大于给定阈值-0.7,当样本不够时找与ground-truth 最大的
negative :IOU 小于给定阈值-0.3
在每张图片采样256个anchors,positive and negative ration is 1:1

RPN损失计算:
RPNloss
上述公式中 代表意思:
Pi 也可表示 positive softmax probabilitty
在这里插入图片描述

三、Roi Pooling:

将每个特征矩阵通过ROI pooling 层缩放到7*7 大小的特征图

四、Classification

Fast R-CNN Multi-task loss
在这里插入图片描述
通过全连接和softmax对proposals进行分类, 再次对proposals进行bounding box regression,获取更高精度的rect box

总结

Faster RCNN 流程大致如此,具体细节用的时候再说。

百度完了终觉浅,绝知此事要coding…

参考:https://www.bilibili.com/video/BV1af4y1m7iL?p=3
https://zhuanlan.zhihu.com/p/64410344

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值