Faster Rcnn学习

最新推荐文章于 2022-09-19 00:02:43 发布

南山种豆人

最新推荐文章于 2022-09-19 00:02:43 发布

阅读量431

点赞数

分类专栏：深度学习之OCR 文章标签：学习深度学习目标检测

本文链接：https://blog.csdn.net/LQalive/article/details/124591712

版权

深度学习之OCR 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

Faster RCNN （之前有两个版本，就看最新的吧）

原理论述
一、Conv layers
二、PRN(Region Proposal Networks)
- 1.Anchor
三、Roi Pooling:
四、Classification
总结

原理论述

注：笔记还是得做啊，不然看了就真滴白看了…，SO，为自己的学习做一个梳理，浅浅的做一下笔记。
网络结构

一、Conv layers

采用backbone 提取image 的feature maps .这一层主要是提取特征网络，可采用VGG，ResNet等经典网络，不多赘述。
VGG 的feature maps 51277

二、PRN(Region Proposal Networks)

用于推荐候选区域，这个网络是用来代替之前的search selective的。输入为图片(因为这里RPN网络和Fast R-CNN共用同一个CNN，所以这里输入也可以认为是featrue maps)，输出为多个候选区域。

1.Anchor

在这里插入图片描述
在RPN中，作者提出了anchor。Anchor是大小和尺寸固定的候选框。论文中用到的anchor有三种尺寸和三种比例，如上图所示，三种尺寸分别是小（蓝128）中（红256）大（绿512），三个比例分别是1:1，1:2，2:1。3×3的组合总共有9种anchor。
提出的候选区域是在原图上的区域，

对于特征图上的每个33的滑动窗口，计算出滑动窗口中心点对应原始图像上的中心点（源图像的高除以特征图的高，然后取整得到scale，将特征图的点的位置乘Scale得到原图的中心点的位置），并计算出k（k=9）个anchor boxes，2K scores ,4K coordinates
cls 代表背景的概率0.1，是检测目标的概率0.9 。 cls 采用2K 个11卷积核大小进行分类
reg 代表每一个anchor 的中心点x,y ，和W、H坐标。 reg 采用4K 个1*1卷积核大小进行预测。
感受野：VGG-228
ZF-171

Faster RCNN 中ZF网络 feature map 中33滑动窗口在原图中感受野的大小计算

对一张10006003的图像，大约有6010*9个anchor，忽略跨越边界的，剩下6000个，由于RPN生成的候选框之间存在大量重叠，基于候选框CLS的得分，采用非极大抑值，IOU为0.7，由此剩下约2K个。