论文：Fast R-CNN

最新推荐文章于 2024-07-22 12:27:09 发布

cztAI

最新推荐文章于 2024-07-22 12:27:09 发布

阅读量1k

点赞数

分类专栏：目标检测文章标签：深度学习

本文链接：https://blog.csdn.net/czt_666/article/details/118375136

版权

Fast R-CNN是一种改进的目标检测算法，它通过RoI池化层和预训练网络初始化提高速度和准确性。论文提出多任务损失函数进行分类和边界框回归，采用分层采样策略加速训练，并探讨了尺度不变性。Fast R-CNN在检测质量和训练效率上优于R-CNN和SPPnet。

摘要由CSDN通过智能技术生成

Fast R-CNN

论文：https://arxiv.org/abs/1504.08083
代码：https://github.com/rbgirshick/fast-rcnn

架构

下图给出了 Fast R-CNN 的架构，整体架构：

将整个图像和一组候选区域作为输入。
对整个图像输入卷积网络输出特征图。
针对每个候选区域，一个 RoI池化层从特征图中提取一个固定长度的特征向量。
每个特征向量送入全连接(FCs)层，最后分成两个输出层：一个生成 softmax 概率估计 / K对象类 + 全方位“背景”类，另一个层输出四个实值编号为K的每个目标类。每4个值的集合对K个类中的一个进行了精细化的边界框位置编码。

在这里插入图片描述

RoI池化层

RoI是将一个矩形窗口转化为一个特征图，每个RoI由一个四元组(r, c, h, w)定义，该元组指定其左上角(r, c)及其高度和宽度(h, w)。RoI最大池化的工作原理是将RoI窗口划分为7 x 7的网格，每个网格内只取一个最大值，这样就将较大的ROI特征图转换为 7 x 7 的特征图。

使用预训练网络初始化

作者用三个预训练ImageNet网络预训练网络初始化一个Fast R-CNN网络，每个网络有5个最大池化层和5~13个conv层。初始化要经历三个变换：

最后一个最大池化层被一个RoI池化层取代，该层通过设置H和W与网络的第一个完全连接层兼容(例如，VGG16的H = W = 7)来配置。
网络的最后一个全连接层和softmax(经过1000路ImageNet分类训练)被架构的全连接层（softmax对应的全连接层）和softmax取代。
修改网络以获取两个数据输入：图像列表和这些图像中的RoIs列表。

微调检测

R-CNN和SPPnet网络训练慢的根本原因在于，每个训练样本(即RoI)来自不同的图像，通过SPP层的反向传播效率非常低。在 Fast RCNN 训练中，对随机梯度下降SGD小批量进行分层采样，首先

对 N张图像采样
对每张图像 采样R/N个 RoIs
同一个图像的RoIs在向前和向后的传递中共享计算和内存。

在这里插入图片描述

使N小，减少了小批量计算，比从128幅不同的图像中采样一个RoI(即R- cnn和SPPnet策略)大约快64倍。

除了分层采样，微调阶段联合优化softmax分类器和边界框回归器，而不是在三个单独的阶段训练softmax分类器、SVM 和回归器。该过程的组成部分(损失、小批采样策略、通过RoI池化层的反向传播，以及SGD超参数)如下所述。

损失：Multi-task loss

Fast R-CNN有两个输出层（类别和边界框），就有两个损失函数。

分类损失函数： $L_{class}(p, u)$

边界框损失函数： $L_{loc}(t^u, v)=\sum _{i∈\{x,y,w,h\}}\text{smooth}_{L_1}(t^u_i− v_i)\\ \text{smooth}_{L_1}(x) =\left\{\begin{array}{l}0.5x^2 & if \ \ |x| < 1 \\ |x| − 0.5 & \text{otherwise} \end{array} \right . \tag 3$