【目标检测系列】五、Fast R-CNN

travellerss

已于 2023-09-17 09:00:04 修改

阅读量30

点赞数

分类专栏： # 目标检测网络文章标签： cnn r语言深度学习

于 2022-10-08 17:06:24 首次发布

本文链接：https://blog.csdn.net/qq_30196905/article/details/127212305

版权

目标检测网络专栏收录该内容

8 篇文章 0 订阅

订阅专栏

参考资料

论文：

Fast R-CNN

博客：

薰风读论文：Fast R-CNN 模型原理/细节/冷知识

RCNN 系列详解

第1章 Fast RCNN概述

Fast R-CNN 主要是在R-CNN和SPPNet的基础上进行改进的，有着以下几个优点：

与R-CNN、SPPNet相比，有着更高的准确率。
通过使用多任务损失，将模型训练由多阶段转变为单阶段训练（一次搞定分类+回归）。
训练时可以一次更新网络的所有层，不再需要分步更新参数。
采用Roi Pooling，优化minibatch采样策略，不再需要硬盘来存储CNN提取的特征数据。

在这里插入图片描述

第2章 Fast RCNN网络细节

Fast R-CNN的流程主要分为三步：

使用 Selective Search 方法生成2K个图片候选区域。
对整张图片进行特征提取得到相应的特征图（这是对R-CNN的一大改进，参考了SPPNet）；
将2k个生成的候选区域映射到特征图中。
使用ROI Pooling将所有的候选区域特征统一缩放到 $7\times7$ 大小，然后将这2K个特征向量展平，并连接到全连接层上，得到两个输出结果，一个是K+1类(类别数+背景类)的概率，还有一个是每个类的预测边框。

在这里插入图片描述

1.1 特征映射

这一映射主要是基于图像经过多层卷积与池化之后，图像的相对位置不变这一特性来实现的。

因为Fast R-CNN的Backbone是VGG，而在VGG中，卷积操作是不改变图像尺寸的，主要是池化操作会改变尺寸大小。

如上图所示，映射操作是在conv5之后，ROI Pooling之前进行的，在这之间进行了4次最大池化操作，每一次都将特征图的尺寸缩小1/2，所以最后特征图就变为了原始图像的 $\frac{1}{2^4} = \frac{1}{16}$ ，那么相应的每一个候选区域的坐标也应该按比例缩放，也就是说映射到特征图上的坐标是原始坐标的 $\frac{1}{16}$ 。

例如：假设某个候选区域的坐标为 $x_{min},y_{min},x_{max},y_{max})$ ，则映射到特征图上就是 $x_{min}',y_{min}',x_{max}',y_{max}')$ 。

在这里插入图片描述

最后，需要注意的是，R-CNN中生成的候选区域会经过NMS进行一波筛选，但Fast RCNN中却没有这一步，或者说在训练阶段没有，但在测试阶段有。
我是在看了它的源码才发现的，至于为什么要这么做，论文中也没有提及，代码中也没有相关的注释说明，所以我也不清楚（当然，我也不是十分确定，因为Fast RCNN的源码不好读，代码分布的比较散，甚至还fork了caffe的源码，把自己的代码放在了框架里面，反正这操作挺骚的）。

1.2 RoI Pooling

（1）概念

在R-CNN中为了统一输入使用了比较暴力的方法（resize），但在Fast R-CNN中，使用了RoI Pooling，这一方法参考了SPPNet的空间金字塔池化，可以将RoI Pooling看做空间金字塔池化的一个简化版。

ROI是框在conv特征图上的一个方型，用四元组定义（左上顶点r、c，高h和宽w），显然，RoI的大小是各不相同的，（无预处理的情况下）CNN无法处理大小不同的特征。这也是为什么R-CNN想不到共享特征的原因。那么，我们需要一个将特征图的特定区域改变维度（通常是降维）的工具，这个工具就是我们经常使用的池化（pooling）。

然而，Fast R-CNN中提出的兴趣域池化层 Roi Pooling 与我们熟知的各类池化层不同。