提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
Faster RCNN (之前有两个版本,就看最新的吧)
原理论述
注:笔记还是得做啊,不然看了就真滴白看了…,SO,为自己的学习做一个梳理,浅浅的做一下笔记。
一、Conv layers
采用backbone 提取image 的feature maps .这一层主要是提取特征网络,可采用VGG,ResNet等经典网络,不多赘述。
VGG 的feature maps 51277
二、PRN(Region Proposal Networks)
用于推荐候选区域,这个网络是用来代替之前的search selective的。输入为图片(因为这里RPN网络和Fast R-CNN共用同一个CNN,所以这里输入也可以认为是featrue maps),输出为多个候选区域。
1.Anchor
在RPN中,作者提出了anchor。Anchor是大小和尺寸固定的候选框。论文中用到的anchor有三种尺寸和三种比例,如上图所示,三种尺寸分别是小(蓝128)中(红256)大(绿512),三个比例分别是1:1,1:2,2:1。3×3的组合总共有9种anchor。
提出的候选区域是在原图上的区域,
对于特征图上的每个33的滑动窗口,计算出滑动窗口中心点对应原始图像上的中心点(源图像的高除以特征图的高,然后取整得到scale,将特征图的点的位置乘Scale得到原图的中心点的位置),并计算出k(k=9)个anchor boxes,2K scores ,4K coordinates
cls 代表 背景的概率0.1,是检测目标的概率0.9 。 cls 采用2K 个11卷积核大小进行分类
reg 代表 每一个anchor 的中心点x,y ,和W、H坐标。 reg 采用4K 个1*1卷积核大小进行预测。
感受野:VGG-228
ZF-171
Faster RCNN 中ZF网络 feature map 中33滑动窗口在原图中感受野的大小计算
对一张10006003的图像,大约有6010*9个anchor,忽略跨越边界的,剩下6000个,由于RPN生成的候选框之间存在大量重叠,基于候选框CLS的得分,采用非极大抑值,IOU为0.7,由此剩下约2K个。
positive:IOU 大于给定阈值-0.7,当样本不够时找与ground-truth 最大的
negative :IOU 小于给定阈值-0.3
在每张图片采样256个anchors,positive and negative ration is 1:1
RPN损失计算:
上述公式中 代表意思:
Pi 也可表示 positive softmax probabilitty
三、Roi Pooling:
将每个特征矩阵通过ROI pooling 层缩放到7*7 大小的特征图
四、Classification
Fast R-CNN Multi-task loss
通过全连接和softmax对proposals进行分类, 再次对proposals进行bounding box regression,获取更高精度的rect box
总结
Faster RCNN 流程大致如此,具体细节用的时候再说。
百度完了终觉浅,绝知此事要coding…
参考:https://www.bilibili.com/video/BV1af4y1m7iL?p=3
https://zhuanlan.zhihu.com/p/64410344