【论文阅读】Fast RCNN论文详解-CSDN博客

本文链接：https://blog.csdn.net/qq_42735631/article/details/121151584

Fast RCNN

1. Introduction

1.1 R-CNN

R-CNN存在以下几个问题：

Training is a multi-stage pipeline： 训练分多步，每次训练需要fine tuning一个预训练网络，然后region proposals要通过selective search算法获取，还有针对每一个类别都训练一个SVM分类器，最后还要用regressor对bounding box进行回归
Training is expensive in space and time: 时间和内存消耗比较大，在训练SVM分类器和bounding box回归器时需要用网络提取的特征作为输入，特征保存在磁盘上再读入的时间消耗是比较大的
Object detection is slow： 测试时比较慢，每张图片的每个region proposals都要卷积，重复操作太多

1.2 Contributions

更好的检测效果相较于RCNN和SPPNet
训练是单阶段的，使用多任务损失，即分类损失和回归损失组合在一起
训练可以更新所有的网络层
不需要磁盘来存储特征

2. Architecture

在这里插入图片描述

Fast RCNN步骤如下：

利用selective search算法提取region proposals候选区域
将整张图片输入 $CNN$ 网络中，提取特征，获得feature maps
将region proposals候选区域映射到feature maps上，得到RoI projection
通过ROI Pooling Layer将RoI projection变成固定大小的特征图
将固定大小的特征图通过一系列FC层得到固定长度的特征向量输入到softmax和bbox regressor中。利用softmax loss分类损失和smoothL1 loss回归损失进行联合训练

3. ROI Pooling Layer

RoI池化层使用最大池化将任何有效区域内的特征转化成一个小的带有固定空间范围HxW（比如下图2x2）的特征图

4. Multi-task Loss

4.1 分类损失

与RCNN不同，Fast RCNN使用softmax作为分类器，其真实类别为 $u$ 的损失定义如下
$L_{cls}(p,u)=-logp_u$
其中 $p_u$ 代表预测为类别 $u$ 的概率

4.2 回归损失

类别 $u$ 的真实边界框定义为： $v=(v_x, v_y, v_w, v_h)$ ；类别 $u$ 的预测边界框定义为： $t^u=(t_x^u, t_y^u, t_w^u,t_h^u)$ 。对于回归损失定义如下：
$L_{loc}(t^u, v)=\sum_{i \in \{x,u,w,h\}}smooth_{L1}(t_i^u-v_i)$
其中：
$smooth_{L1}(x) = \begin{cases} 0.5 x^2 & if \quad |x| < 1 \\ |x|-0.5 & otherwise \end{cases}$

4.3 联合损失

$t^u, v)=L_{cls}(p, u) + \lambda[u \geq 1]L_{loc}(t^u, v)$
其中中括号项代表这样一个函数：当 $u \geq 1$ 时，返回1，否则返回0。根据约定代表全部剩余一切的背景类标注成 $u = 0$ 。所以对于背景而言，没有标注框信息，因而 $L_{loc}$ 就忽略了。