1、 前言
框架最大的特点:Faster R-CNN框架是在Fast R-CNN框架的基础上作进一步改进,其最大的改进是生成候选区域的方法。以往的Fast R-CNN框架和R-CNN框架使用selective search(ss)方法生成1K~2K个候选区域,而Faster R-CNN框架使用RPN结构生成候选区域,大大减少了框架生成候选区域所耗费的时间。因此本文重点讲解RPN结构原理。需要了解Fast R-CNN框架原理的可以参照下列文章。
KMUST人工智能实验室:Fast R-CNN阅读笔记zhuanlan.zhihu.com2、 Faster R-CNN框架基本的预测目标流程
(1)将图像输入卷积网络提取各种特征,得到相应的特征图。
(2) 将特征图输入RPN结构生成候选区域,将RPN生成的候选区域投影到特征图上,获得相应的特征矩阵。
(3) 将每个特征矩阵通过ROI pooling层缩放到7*7大小的特征图,接着将该特征图通过一系列的全连接层得到预测结果。
![c8352b25e23e6cdbfddaec18c1656191.png](https://i-blog.csdnimg.cn/blog_migrate/20cc219a2c5562e1ee2af14fd9948a42.png)
3、 RPN结构原理
![f58db7348af23237528d2aa69e4da805.png](https://i-blog.csdnimg.cn/blog_migrate/62f0b79a1e3e020841a46892bfab59c9.png)
3.1 生成anchors的原理
将特征图输入到RPN结构后,第一步是对特征图进行卷积操作(3*3的卷积核,stride=1,padding=1),其中特征图与滑动窗口(卷积核)的中心点(又因为padding=1,这个中心点其实就是特征图的每一个像素)映射回到原图的位置,然后以在原图位置为中心点生成K个anchors,那么anchors的面积以及宽高比例是多少呢?通常anchors有三种面积(