Faster R-CNN网络架构详解和TensorFlow Hub实现（附源码）

Bestaier

已于 2024-07-22 17:08:06 修改

阅读量1.5k

点赞数

分类专栏：机器学习/深度学习文章标签： cnn 深度学习神经网络计算机视觉机器学习

于 2023-05-25 15:19:09 首次发布

本文链接：https://blog.csdn.net/liuqiker/article/details/130836010

版权

文章目录

一、RPN网络
- 1. RPN网络简介
- 2. backbone网络简介
二、Faster R-CNN网络架构
- 1. Faster R-CNN网络简介
- 2. 基于TensorFlow Hub实现Faster R-CNN

前言：Faster R-CNN的简介见上一篇文章

一、RPN网络

1. RPN网络简介

RPN网络全称Region Proposal Network，顾名思义，这是一种生成候选区域的网络。该网络主要用于Faster R-CNN的候选区域生成部分。
在R-CNN和Fast R-CNN中，候选区域一般采用滑动窗口算法（Selective Search）生成，耗费大量的时间，而Faster R-CNN的一个重要改进就是使用RPN网络生成候选区域，而RPN是通过全卷积网络来实现，故而极大缩短了候选区生成时间。
Faster R-CNN可以看做是RPN + Fast R-CNN的组合。
下图是RPN网络架构图，共有如下几个步骤：
在这里插入图片描述
Step 1：输入图片经过backbone网络，生成特征图矩阵（Feature Map）。
Step 2：特征图矩阵经过3×3卷积核做特征的提取和转换，此时转换后的特征图shape为[H, W, D]，取D以外的维度[H，W]来表示一个特征点，命名为anchor。由于原图经过了backbone和3×3的卷积的缩放转换处理，故此时的一个anchor对应的不是原图中的一个点，而是一个区域A。我们以A的中心点为原点，在原图上取大小长宽比不同且固定的k个矩形，命名为anchors。anchors样式如下图：
在这里插入图片描述
注意，特征图上的每个点[H，W]生成一个anchors，anchors可以理解成k个不同的框（框的属性是长宽，和四个点的坐标）。这个框的数据（四个坐标）都是对应于原图的。
Step 3：对Step 2中每一个D维度之外的点[H，W]做1×1卷积，首先需要经过一个1×1（2×k个unit）的卷积核，以预测是否包含待检测物体；同时需要经过另一个1×1（4×k个unit）的卷积核，以预测坐标位置。
Step 4：上一步的预测值与真实值比较计算，不断修正其准确度。

2. backbone网络简介

对于backbone的选择，现在常用的有VGG，ResNet，ResNet50 FPN，ReXNets等，目前效果较好的是ResNet50 FPN。
若选择VGG，作为backbone，输入shape为[3，800，992]，得到输出shape为[1280，25，31]，一张特征图；
若选择ResNet50 FPN，作为backbone，输入shape为[3，1600，1300]，输出为shape为[256，200，248]，[256，100，124]，[256，50，62]，[256，25，31]，[256，13，16]，5张特征图，不同大小的特征图适合检测不同大小的目标，[256，200，248]更容易检测到小目标，[256，13，16]更容易检测到大目标，故ResNet50是更好的选择，网络结构如下图。
在这里插入图片描述

二、Faster R-CNN网络架构

1. Faster R-CNN网络简介

Faster R-CNN的典型网络架构如下图：
在这里插入图片描述
Step 1：输入的图片经过backbone网络，生成候选区域图。
Step 2：将RPN网络生成的候选图（proposals）输入到ROI Pooling，其作用是将不同尺寸的特征图（由于检测框大小不同，所以截图的特征图大小也不同）转换成同一尺寸。
Step 3：ROI Pooling的输出[512,256,7,7]，经过展平得到[512,12544]，再经过两个全连接层得到[512,1024]。
Step 4： Step 3的输出[512,1024]作为输入，经过一个全连接层（FC21）Linear(1024，num_classes)，num_classes表示要分类的类别。得到每一个类别的预测分数，与真实boxes的类别标签labels计算损失；同时该输入还要经过一个另全连接层（FC48）Linear(1024，num_classes×4)，num_classes×4表示每一个分类类别对应的边界框回归参数，并与真实参数值计算损失。
至此，Faster R-CNN的基本原理大致学习完毕，还有大量的细节需要靠阅读源码了解。

2. 基于TensorFlow Hub实现Faster R-CNN

Step 0：关键包导入

import tensorflow as tf
import tensorflow_hub as jub

Step 1：用于下载图像和可视化的工具函数

def display_image(image):
  fig = plt.figure(figsize=(20, 15))
  plt.grid(False)
  plt.imshow(image)

def download_and_resize_image(url, new_width=256, new_height=256,
                              display=False):
  _, filename = tempfile.mkstemp(suffix=".jpg")
  response