【目标检测】two-stage------Faster R-CNN浅析-2015

every blog every motto: There’s only one corner of the universe you can be sure of improving, and that’s your own self.
https://blog.csdn.net/weixin_39190382?spm=1010.2135.3001.5343

0. 前言

简单梳理Faster R-CNN
R-CNN
SSP-Net
Fast R-CNN

1. 正文

时间： 2015
论文： https://arxiv.org/abs/1506.01497

1.1 R-CNN系列流程

1.1.1 R-CNN

流程：

利用selective search 在图像上选择2000个左右的候选区（Region Proposal）
将每个候选区缩放到227×227并输入到CNN，将CNN的fc7层输出作为特征
将上面提取到的特征输入SVM进行（二）分类
对SVM分好类的Region Proposal做边框回归，用Bounding box回归值校正原来的建议窗口，生成预测窗口坐标

缺点：

训练分多个阶段：微调网络、训练SVM、边框回归
训练耗时，占用磁盘空间大；CNN提取的特征由于要经过SVM分类，所以需要保存在本地，孔用几百G的空间
速度慢：使用GPU，一张图像需要47s
测试速度慢：每个候选区都需要经过CNN

1.1.2 Fast R-CNN

利用selective search 在原图上生成2000个候选区
将原图输入到CNN，进行特征提取
将候选区在映射到CNN最后的输出的特征图上
通过ROI pooling把每个候选区生成固定尺寸的特征图
利用softmax（分类）和smooth L1对分类概率和边框回归联合训练

相比R-CNN，主要有两处不同：

CNN后加了ROI pooling
损失函数使用了多任务损失，将边框回归直接加到CNN网络中训练

改进：

不是将每个候选框都送入CNN，而是先输入整张原图，然后在得到特征图中找到候选框的映射位置
抛弃了SVM分类，而是使用softmax
分类和回归加入网络中
由于采用ROI Pooling，不需要对输入图像进行crop和wrap操作，避免信息丢失

1.1.3 Faster R-CNN

将原图输入CNN，进行特征提取
用RPN生成一堆Anchor box，对其进行裁剪过滤后通过softmax判断anchors属于前景还是背景（即，是物体/非物体），二分类任务。同时，另一个分支bounding box regression修正anchor box，形成相对精确的proposal
把建议候选框映射到CNN生成的特征图上
通过ROI Pooling层使每个ROI生成固定尺寸的特征图
利用softmax和smooth L1对分类概率和边框回归联合训练。

相比Fast R-CNN，主要不同：

使用RPN（Region Proposal Network）代替原来的selective search 方法产生的候选框
产生候选框的CNN和目标检测的CNN共享

改进：
Faster R-CNN创造性的采用卷积神经网络产生候选框，并且和目标检测的网络共享网络，使得候选框数目从原来的2000个减少到300个，且建议候选框质量有一定提高

一句话概况： Faster R-CNN 将候选框提议、特征提取、bounding box 回归、分类都整合到一起了，使得综合性能较大提高。

1.2 Faster R-CNN流程详解

整体流程图：

请添加图片描述

1.2.1 原图输入CNN

原图输入CNN后生成特定的特征图，
在这里插入图片描述

1.2.2 RPN （Region Proposal Network）操作

1. anchor

第一步的特征图提取中，我们以VGG16为例，输入图像进行了16倍下采样。即生成的特征图到一个像素点对应原图中16×16的区域（感受野）
**重点： ** 特征图上每个的像素点称为anchor（锚点）
更准确的说：
第一步生成的特征图经过3×3的卷积（striding=1,padding=1）操作，特征图与卷积核（滑动窗口）的中心点（因为，padding=1,这个中心点就是特征图的中心）

根据anchor，可以在原图上生成9种不同的尺寸不同长宽比的边框，
尺寸：128×128、256×256、512×512
长宽比：1：2、1：1、2：1

所以共有9种。VGG16生成的特征图大小为40*60，因此一种生成40×60×9 个 anchor box.
在这里插入图片描述
说明： 上面我们提到一个像素点对应原图16×16的大小的区域。我们又说三种不同的尺寸128、256、512，这难道不矛盾吗？其实是将16×16放大到这三种尺寸了。