从结构、原理到实现，Faster R-CNN全解析（原创）

最新推荐文章于 2022-03-02 17:43:15 发布

docrazy5351

最新推荐文章于 2022-03-02 17:43:15 发布

阅读量2k

点赞数 2

分类专栏：计算机视觉神经网络深度学习人工智能文章标签：计算机视觉神经网络深度学习人工智能 Faster R-CNN

本文链接：https://blog.csdn.net/docrazy5351/article/details/78993413

版权

本文详细解析Faster R-CNN目标检测结构，包括特征提取、RPN（区域提议网络）、Proposal Layer、ROI Pooling四个部分，阐述其在深度学习和计算机视觉中的应用。Faster R-CNN通过网络训练实现目标检测速度的提升，替代了传统Selective Search方法。

摘要由CSDN通过智能技术生成

论文链接 Faster R-CNN Towards Real-Time Object：
https://arxiv.org/pdf/1506.01497.pdf
tensorflow源码链接：
https://github.com/smallcorgi/Faster-RCNN_TF

Faster R-CNN是目标检测界的大神Ross Girshick 2015年提出的一个很经典的检测结构，它将传统的Selective Search提取目标的方法替换成网络训练来实现，使得全流程的检测、分类速度大幅提升。
图1是Faster R-CNN的基本结构，由以下4个部分构成：
1、特征提取部分：用一串卷积+pooling从原图中提取出feature map；
2、RPN部分：这部分是Faster R-CNN全新提出的结构，作用是通过网络训练的方式从feature map中获取目标的大致位置；
3、Proposal Layer部分：利用RPN获得的大致位置，继续训练，获得更精确的位置；
4、ROI Pooling部分：利用前面获取到的精确位置，从feature map中抠出要用于分类的目标，并pooling成固定长度的数据；

图1：Faster R-CNN结构（点击放大）

一、特征提取部分

特征提取部分就是图1中输入图片和feature map间的那一串卷积+pooling，这部分和普通的CNN网络中特征提取结构没有区别，可以用VGG、ResNet、Inception等各种常见的结构实现(只使用全连接层之前的部分)，这部分不再详述。

二、RPN部分

目标识别有两个过程：首先你要知道目标在哪里，要从图片中找出要识别的前景，然后才是拿前景去分类。在Faster R-CNN提出之前常用的提取前景(本文称为提取proposal)的方法是Selective Search，简称SS法，通过比较相邻区域的相似度来把相似的区域合并到一起，反复这个过程，最终就得到目标区域，这种方法相当耗时以至于提取proposal的过程比分类的过程还要慢，完全达不到实时的目的；到了Faster R-CNN时，作者就想出把提取proposal的过程也通过网络训练来完成，部分网络还可以和分类过程共用，新的方法称为Reginal Proposal Network(RPN)，速度大大提升。
图2粉色框内就是RPN，它做两件事：1、把feature map分割成多个小区域，识别出哪些小区域是前景，哪些是背景，简称RPN Classification，对应粉色框中上半分支；2、获取前景区域的大致坐标，简称RPN bounding box regression，对应下半分支；