Fast R-CNN网络结构、框架原理详解

最新推荐文章于 2025-04-24 20:14:49 发布

只爱喝水

最新推荐文章于 2025-04-24 20:14:49 发布

阅读量3.7k

点赞数 37

文章标签：卷积神经网络 cnn

本文链接：https://blog.csdn.net/qq_52191127/article/details/140601997

版权

一、Fast R-CNN简介

Fast R-CNN是一种基于区域卷积网络 ( Region-based Convolutional Network ) 的快速目标检测方法。是R-CNN作者Ross Girshick继R-CNN 之后的又一力作，原文链接。与R-CNN相同，Fast R-CNN同样使用VGG16作为网络的backbone,FastR-CNN训练非常深的VGG16网络比R-CNN快9倍，在测试时快213倍，并且在pascalVOC2012上实现了更高的mAP。与SPPnet相比，FastR-CNN训练VGG16 3×的速度更快，测试速度更快10×，而且更准确。

Fast R-CNN architecture

二、 Fast R-CNN 详解

1.Fast R-CNN处理过程

1） Fast R-CNN将整张图片和一组建议框（object proposals）作为输入，通过几个卷积层和最大池化层处理整张图像，得到卷积特征图（conv feature map）

2)对于每个建议框，通过RoI pooling layer ，为每个object proposal来提取在feature map上对应的特征，并使得输出都具有相同size的特征图。

3）将每个特征图输入到一系列的全连接层（FCs）中，把这些特征综合起来。

4）将综合起来的特征，通过概率分类器（FC layer+softmax）和边界框回归器（FC layer+bbox regressor）输出。

2、Fast R-CNN的重要知识

1）object proposals(建议框或候选区域)的生成

与R-CNN一样，利用Selective Search算法通过图像分割的方法得到一些原始区域，然后使用一些合并策略将这些区域合并，得到一个层次化的区域结构，而这些结构就包含着可能需要的物体。

但是，Fast R-CNN与R-CNN不同的是，这些生成出来的候选区域不需要每一个都丢到卷积神经网络里面提取特征，而且只需要在特征图上映射便可，见下一个步骤。

2）投影特征图获得相应的特征矩阵

Fast-RCNN没有像RCNN一样，其不限制输入的图像的尺寸，其将整张图像送入网络，得到了一个特征图。紧接着从特征图像上提取相应的候选区域。这些候选区域的特征不需要再重复计算，简洁了不少的时间。

但是这其中涉及训练数据正负样本采样的问题。不过Fast R-CNN与Faster R-CNN处理得不同，也可以不用太过的在意。

在Fast R-CNN中，并不适用SS算法提供的所有的候选区域，SS算法会差不多得到2000个候选框，但是训练的过程中其实只需要使用其中的一部分就可以了，Fast R-CNN中好像只挑选了其中的64个。其中还是分为正样本与负样本，正样本指的是在候选框中确实存在所需检测目标的样本；而负样本指的是候选框中没有所需检测的目标，也就是只有背景。

当数据不平衡时，数据会有所偏向。如果全部只有正样本，那么网络就会有很大的一个概率认为候选区域是我们需要的一个检测目标，这样就会有问题，所以存在正负样品。正样本的定义为候选框与真实的目标边界框的iou大于0.5；负样本的定义为候选框与所有真实的目标边界框的iou值最大的区间为0.1-0.5。重点是其实没有完全适应SS算法提供的所以的边界框。