Fast R-CNN

最新推荐文章于 2020-10-14 11:14:26 发布

春枫琰玉

最新推荐文章于 2020-10-14 11:14:26 发布

阅读量317

点赞数

分类专栏：深度学习-目标检测

本文链接：https://blog.csdn.net/chunfengyanyulove/article/details/79835557

版权

深度学习-目标检测专栏收录该内容

24 篇文章 4 订阅

订阅专栏

论文链接：https://arxiv.org/abs/1504.08083

Fast R-CNN是RBG大神于2015年发表的目标检测网络，其在SPP-Net的基础上，通过进一步的改进，使得目标检测精度以及检测速度有了进一步的提升，下面详细介绍Fast R-CNN的创新点。

Q1:SPP-Net存在哪些待改进问题？

SPP-Net仍然采用R-CNN的策略，需要将CNN提取的特征存储到disk中，然后利用SVM分类器进行分类，效率比较低。
SPP-Net在训练CNN的过程中，对于ROI-pooling前面的卷积层并没有进行参数的更新，这带来了一定精度的损失，在本篇论文中，作者也有对比。
SPP-Net的训练仍然是multi-pipeline的，无法做到端到端，总体而言比较费劲。

Q2:Fast R-CNN做了哪些创新点呢？

Fast R-CNN设计了multi-loss方式进行目标分类以及位置回归，不需要进行特征存储到disk，使得效率有了大大的提升，如图1所示。
不需要multi-pipeline。
CNN参数全更新。
单个ROI-pooling不再是SPP-Net的多级pooling.
使用mini-batch SGD方式进行训练。
利用SVD方式进行速度的提升。

这里写图片描述

Fast R-CNN结构图

Q3:ROI-pooling

fast r-cnn网络的roi-pooling没有选择与spp-net相同的多级金字塔式的池化，而是选择了单级固定大小的池化，作者也通过实验证明，其实选择多级金字塔池化对精度会有一定的提升，但是影响不大，但是会降低速度，所以有点鸡肋。

Q4: Fast R-CNN训练整个网络，而SPP-net只训练了roi-pooling后面的网络

为什么SPP-Net没有训练全网络，而只是训练了roi-pooling后面的网络呢？
作者给的解释如下：（此处有些没有看懂，为啥感受野大就效率低？）

The root cause is that back-propagation through the SPP layer is highly inefficient when each training sample (i.e.RoI) comes from a different image, which is exactly how R-CNN and SPPnet networks are trained. The inefficiency stems from the fact that each RoI may have a very large receptive field, often spanning the entire input image. Since the forward pass must process the entire receptive field, the training inputs are large (often the entire image).

Fast R-CNN给的方法如下：

作者采用分层SGD训练的方法，默认每次选取2张图像，并在每张图像选取64个roi进行训练
作者说，这种方法有可能导致不收敛，但是实验证明并没有发生不收敛的现象。

Q5: 多任务损失设计

Fast R-CNN含有两个输出层，分别用于计算分类结果以及计算检测框的坐标结果。第一个输出层通过softmax计算相应ROI在各个类别中的概率。第二个输出层计算相应ROI的检测框的坐标值。算法采用多任务的损失函数对每个标定的ROI的类型和检测框坐标进行回归计算，损失函数公式如下。其中 $L_{cls}$ 用于计算分类概率损失的函数，是一个softmax损失函数， $L_{loc}$ 是检测框坐标的损失函数，定义如下：

L (p, u, t u, v) = L c l s (p, u) + λ [u > = 1] L l o c (t u, v)

$L(p,u,t^{u},v)=L_{cls}(p,u) + \lambda[u>=1]L_{loc}(t^u,v)$

L l o c (t u, v) = \sum i i n (x, y, w, h) s m o o t h L 1 (t u i - v i)

$L_{loc}(t^u,v)=\sum_{i in(x,y,w,h)}smooth_{L_{1}}(t_{i}^{u}-v_{i})$

i f | x | < 1, s m o o t h L 1 (x) = 0.5 x 2, e l s e, s m o o t h L 1 (x) = | x | - 0.5

$if |x| < 1,smooth_{L_{1}}(x)=0.5x^{2},else,smooth_{L_{1}}(x)=|x|-0.5$

Q6: Back-propagation through RoI pooling layers.

简单来说，就是对于每一个mini-batch的ROI区域，如果对应的点被选中为最大值，则对其导数进行累加，得到反向传播的梯度：

\partial L \partial x i = \sum r \sum j [i = i * (r, j)] \partial L \partial y r , j

$\frac{\partial_{L}}{\partial_{x_{i}}}=\sum_{r}\sum_{j}[i=i*(r,j)]\frac{\partial_{L}}{\partial_{y_{r,j}}}$

In words, for each mini-batch RoI r and for each pooling output unit yrj, the partial derivative ∂L/∂yrj is accumulated if i is the argmax selected for yrj by max pooling.