Fast R-CNN理解

最新推荐文章于 2024-01-18 18:26:19 发布

zj134_

最新推荐文章于 2024-01-18 18:26:19 发布

阅读量586

点赞数

文章标签： Fast R-CNN 目标检测

原文链接：https://blog.csdn.net/WoPawn/article/details/52463853

版权

原文链接：Fast R-CNN论文详解 - WoPawn的博客
 参考链接：Object Detection系列（三） Fast R-CNN

创新点

规避R-CNN中冗余的特征提取操作，只对整张图像全区域进行一次特征提取；
用RoI pooling层取代最后一层max pooling层，同时引入建议框信息，提取相应建议框特征；
Fast R-CNN网络末尾采用==并行（如果串行，实现不了end-to-end）==的不同的全连接层，可同时输出分类结果和窗口回归结果，实现了end-to-end的多任务训练（建议框提取除外），也不需要额外的特征存储空间（R-CNN中这部分特征是供SVM和Bounding-box regression进行训练的）；
采用SVD对Fast R-CNN网络末尾并行的全连接层分解，减少计算复杂度，加快检测速度。

R-CNN存在的问题

R-CNN训练、测试很慢：一张图经由ss算法提取约2k个建议框【2k个建议框大量冗余】，所有建议框resize后都要输入AlexNet CNN网络提取特征【即约2k次特征提取】，上述重叠区域会多次重复提取特征，提取特征操作冗余；
R-CNN训练、测试繁琐：训练过程分为ILSVRC 2012样本下有监督预训练、PASCAL VOC 2007特定样本下的微调、20类即20个SVM分类器训练、20类即20个Bounding-box 回归器训练，流程繁琐复杂；测试过程也包括提取建议框、提取CNN特征、SVM分类和Bounding-box 回归等步骤；
R-CNN训练需要大量存储空间：20个SVM分类器和20个Bounding-box 回归器在训练中需要大量特征作为训练样本，这部分从CNN提取的特征占用大量存储空间；
R-CNN需要对建议框进行形resize为227×227再输入CNN提取特征，但是像AlexNet CNN等网络在提取特征过程中对图像的大小并无要求，只是在提取完特征进行全连接操作的时候才需要固定特征尺寸，然后才使用SVM分类器分类，resize的问题在Fast R-CNN已经不存在。

如何解决问题

Fast R-CNN测试过程

Fast R-CNN网络结构如下：

这里写图片描述

任意size图片输入CNN，经过若干卷积与池化层，得到特征图；
在任意size图片上采用ss算法提取约2k个建议框；
根据原图中建议框到特征图的映射关系，在特征图中找到每个建议框对应的特征框【深度和特征图一致】，并在RoI池化层中将每个特征框池化到H×W【VGG-16网络是7×7】；
固定H×W大小的特征框经过全连接层得到固定大小的特征向量；
第4步所得特征向量经由各自的全连接层【由SVD分解实现】，分别得到两个输出向量：一个是softmax的分类得分，一个是Bounding-box窗口回归；
利用窗口得分分别对每一类物体进行非极大值抑制剔除重叠建议框，最终得到每个类别中回归修正后的得分最高的窗口。

解释分析

1、整个测试过程为什么可以只进行一次CNN特征提取操作？
R-CNN首先采用ss算法提取约2k个建议框，并对所有建议框都进行CNN特征提取操作，会出现重叠区域多次重复提取，耗时、耗空间。事实上并不需要对每个建议框都进行CNN特征提取，只需对原始图片进行1次CNN特征提取即可，因为ss算法提取的建议框属于原始图片，因此对原始图片提取特征后，再找出相应建议框在特征图中对应的区域，就可以避免冗余的特征提取操作，节省大量时间。

2、为什么要将每个建议框对应的特征框池化到H×W 的size？如何实现？
AlexNet等网络在提取特征过程中对图像的大小无要求，只是在提取完特征进行全连接操作的时候才需要固定特征尺寸，利用这一点，Fast R-CNN可输入任意size图片，并在全连接操作前加入RoI池化层，将建议框对应特征图中的特征框池化到H×W 的size，以便满足后续操作对size的要求；

具体实现?
首先假设建议框对应特征图中的特征框大小为h×w，将其划分H×W个子窗口，每个子窗口大小为h/H×w/W，然后对每个子窗口采用max pooling下采样操作，每个子窗口只取一个最大值，则特征框最终池化为H×W的size【特征框各深度同理】，这将各个大小不一的特征框转化为大小统一的数据输入下一层。

3、为什么要采用SVD分解实现Fast R-CNN网络中最后的全连接层？具体如何实现？
图像分类中，卷积层计算的时间比全连接层计算的时间多，而目标检测任务中，ss算法提取的建议框较多【约2k】，几乎有一半的前向计算时间被花费在全连接层，就Fast R-CNN而言，RoI池化层后的全连接层需要进行约2k次【每个建议框都要计算】，因此在Fast R-CNN中可以采用SVD分解加速全连接层计算；

具体如何实现呢?
① 物体分类和窗口回归都是通过全连接层实现的，假设全连接层输入数据为x，输出数据为y，全连接层参数为W，尺寸为 $u \times v$ ，那么该层全连接计算为:：
$y = W x$

计算复杂度为 $u \times v$ ；

② 若将W进行SVD分解，并用前t个特征值近似代替，即:

$W=U\sum V^T\approx U(u,1:t)\cdot \sum(1:t,1:t)\cdot V(v,1:t)^T$

那么原来的前向传播分解成两步 $y=Wx=U\cdot(\sum\cdot V^T)\cdot x=U\cdot z$

计算复杂度为 $u \times t + v \times t$ ，若 $t < m i n (u, v)$ ，则这种分解会大大减少计算量。

在实现时，相当于把一个全连接层拆分为两个全连接层，第一个全连接层不含偏置，第二个全连接层含偏置；实验表明，SVD分解全连接层能使mAP只下降0.3%的情况下提升30%的速度，同时该方法也不必再执行额外的微调操作。

这里写图片描述

4、文中仅采用ss算法提取约2k个候选区域，那候选区域越多越好吗？
利用ss算法提取1k~10k中10种数目【1k，2k…】的候选区域进行训练测试，发现随着候选区域个数的增加，mAP呈先增加后缓慢下滑的趋势，表明更多的候选区域会有损精度；同时，作者也做了召回率【所谓召回率即候选区域为真的窗口与Ground Truth的比值【IoU大于阈值即为真】】分析实验，发现随着候选区域个数的增加，召回率并没有和mAP成很好的相关性，而是一直不断增加，也就是说更高的召回率并不意味着更高的mAP；

文中也以ss算法提取的2k个候选区域为基础，每次增加1000 × {2, 4, 6, 8, 10, 32, 45}个密集box【滑动窗口方法】进行训练测试，发现mAP比只有selective search方法的2k候选区域下降幅度更大，最终达到53%。

5、如何处理尺度不变性问题？即如何使24×24和1080×720的车辆同时在一个训练好的网络中都能正确识别？
文中提及两种方式处理：brute-force（单一尺度）和image pyramids（多尺度）。单一尺度直接在训练和测试阶段将image定为某种scale，直接输入网络训练，然后期望网络自己能够学习到scale-invariance(尺度不变性)的表达；多尺度在训练阶段随机从图像金字塔【缩放图片的scale得到，相当于扩充数据集】中采样训练，测试阶段将图像缩放为金字塔中最为相似的尺寸进行测试；

可以看出，多尺度应该比单一尺度效果好。作者在5.2节对单一尺度和多尺度分别进行了实验，不管哪种方式下都定义图像短边像素为s，单一尺度下s=600【维持长宽比进行缩放】，长边限制为1000像素；多尺度s={480,576,688,864,1200}【维持长宽比进行缩放】，长边限制为2000像素，生成图像金字塔进行训练测试；实验结果表明AlexNet【S for small】、VGG_CNN_M_1024【M for medium】下单一尺度比多尺度mAP差1.2%~1.5%，但测试时间上却快不少，VGG-16【L for large】下仅单一尺度就达到了66.9%的mAP【由于GPU显存限制多尺度无法实现】，该实验证明了深度神经网络善于直接学习尺度不变形，对目标的scale不敏感。

6、为什么不沿用R-CNN中的形式继续采用SVM进行分类？
针对Fast R-CNN，文中分别进行实验并对比了采用SVM和采用softmax的mAP结果，不管AlexNet【S for small】、VGG_CNN_M_1024【M for medium】、VGG-16【L for large】中任意网络，采用softmax的mAP都比采用SVM的mAP高0.1%~0.8%，这是由于softmax在分类过程中引入了类间竞争，分类效果更好；

Fast R-CNN去掉了SVM这一步，所有的特征都暂存在显存中，就不需要额外的磁盘空间。

训练过程

1. 有监督预训练

样本	来源
正样本	ILSVRC 20XX
负样本	ILSVRC 20XX

ILSVRC 20XX样本只有类别标签，有1000种物体；

文中采用AlexNet【S for small】、VGG_CNN_M_1024【M for medium】、VGG-16【L for large】这三种网络分别进行训练测试，下面仅以VGG-16举例。

2. 特定样本下的微调

样本	比例	来源
正样本	25%	与某类Ground Truth相交IoU∈[0.5,1]的候选框
负样本	75%	与20类Ground Truth相交IoU中最大值∈[0.1,0.5）的候选框

PASCAL VOC数据集中既有物体类别标签，也有物体位置标签，有20种物体；
正样本仅表示前景，负样本仅表示背景；
回归操作仅针对正样本进行；
该阶段训练集扩充方式：50%概率水平翻转；

微调前，需要对有监督预训练后的模型进行3步转化：
①RoI池化层取代有监督预训练后的VGG-16网络最后一层池化层；
②两个并行层取代上述VGG-16网络的最后一层全连接层和softmax层，并行层之一是新全连接层1+原softmax层1000个分类输出修改为21个分类输出【20种类+背景】，并行层之二是新全连接层2+候选区域窗口回归层，如下图所示；
③上述网络由原来单输入：一系列图像修改为双输入：一系列图像和这些图像中的一系列候选区域；

这里写图片描述

SGD超参数选择：

除了修改增加的层，原有的层参数已经通过预训练方式初始化；
用于分类的全连接层以均值为0、标准差为0.01的高斯分布初始化，用于回归的全连接层以均值为0、标准差为0.001的高斯分布初始化，偏置都初始化为0；
针对PASCAL VOC 2007和2012训练集，前30k次迭代全局学习率为0.001，每层权重学习率为1倍，偏置学习率为2倍，后10k次迭代全局学习率更新为0.0001；
动量设置为0.9，权重衰减设置为0.0005。

解释分析
1、Fast R-CNN如何采样进行SGD训练，和R-CNN、SPPnet中SGD采样方式有什么区别和优势？

R-CNN和SPPnet中采用RoI-centric sampling：从所有图片的所有候选区域中均匀取样，这样每个SGD的mini-batch中包含了不同图像的样本，不同图像之间不能共享卷积计算和内存，运算开销大；

Fast R-CNN中采用image-centric sampling： mini-batch采用层次采样，即先对图像采样(N个)，再在采样到的图像中对候选区域采样(每个图像中采样R/N个，一个mini-batch共计R个候选区域样本)，同一图像的候选区域卷积共享计算和内存，降低了运算开销；

image-centric sampling方式采样的候选区域来自于同一图像，相互之间存在相关性，可能会减慢训练收敛的速度，但是作者在实际实验中并没有出现这样的担忧，反而使用N=2，R=128的RoI-centric sampling方式比R-CNN收敛更快。

2、训练数据越多效果越好吗？

实验	训练集	测试集	mAP
实验1	VOC 2007训练集	VOC 2007测试集	66.9%
实验1	VOC 2007+VOC 2012训练集	VOC 2007测试集	70.0%
实验2	VOC 2012训练集	VOC 2010测试集	66.1%
实验2	VOC 2007+VOC 2012训练集+VOC2007测试集	VOC 2010测试集	68.8%
实验3	VOC 2012训练集	VOC 2012测试集	65.7%
实验3	VOC 2007+VOC 2012训练集+VOC2007测试集	VOC 2012测试集	68.4%

文中分别在VOC 2007、VOC 2010、VOC 2012测试集上测试，发现训练数据越多，效果确实更好。这里微调时采用100k次迭代，每40k次迭代学习率都缩小10倍。

3、哪些层参数需要被微调？
文中采用VGG-16【L for large】网路，若只对全连接层进行微调，mAP会从66.9%降低到61.4%，所以文中也需要对RoI池化层之前的卷积层进行微调；

那么问题来了？向前微调多少层呢？所有的卷积层都需要微调吗？

作者经过实验发现仅需要对conv3_1及以后卷积层【即9-13号卷积层】进行微调，才使得mAP、训练速度、训练时GPU占用显存三个量得以权衡；
作者说明所有AlexNet【S for small】、VGG_CNN_M_1024【M for medium】的实验结果都是从conv2往后微调，所有VGG-16【L for large】的实验结果都是从conv3_1往后微调。

4、Fast R-CNN如何进行多任务训练？多任务训练有效果吗？
Fast R-CNN网络分类损失和回归损失如下图所示【仅针对一个RoI即一类物体说明】，黄色框表示训练数据，绿色框表示输入目标：

这里写图片描述

-cls_score层用于分类，输出K+1维数组p，表示属于K类物体和背景的概率；
-bbox_predict层用于调整候选区域位置，输出4*K维数组，也就是说对于每个类别都会训练一个单独的回归器；
-loss_cls层评估分类代价，由真实分类u对应的概率决定：

$L_{cls}(p,u)=-logp_u$

-loss_bbox评估回归损失代价，比较真实分类u对应的预测平移缩放参数: $t^u= (t^u_x,t^u_y,t^u_w，t^u_h)$ 和真实平移缩放参数 $v=(v_x,v_y,v_w,v_h)$ 的差距：

smooth L1损失函数曲线如下图所示，相比于L2损失函数，其对离群点、异常值不敏感，可控制梯度的量级使训练时不容易跑飞；
这里写图片描述
结合分类损失和回归损失，Fast R-CNN微调阶段总的损失函数为：
在这里插入图片描述
约定u=0为背景分类，那么 $[u > = 1]$ 函数表示背景候选区域即负样本不参与回归损失，不需要对候选区域进行回归操作；

λ 控制分类损失和回归损失的平衡，文中所有实验 λ=1

那多任务训练有效果吗？

首先不看多任务训练效果，至少比起R-CNN其训练方便、简洁。多任务训练考虑各任务间共享卷积层的相互影响，是有潜在可能提高检测效果的；

文中通过实验发现AlexNet【S for small】、VGG_CNN_M_1024【M for medium】、VGG-16【L for large】三种网络采用多任务训练比不采用mAP提高了0.8%~1.1%【测试时不采用Bounding-box regression】。

5、RoI池化层如何进行反向求导训练？
在这里插入图片描述

&结果怎么样

PASCAL VOC 2007训练集上，使用VGG-16【L for large】网络Fast R-CNN训练时间为9.5h，同等条件下R-CNN需要84h，快8.8倍；
PASCAL VOC 2007测试集上，使用VGG-16【L for large】网络不采用SVD Fast R-CNN测试时间为0.32s/image【不包括候选区域提取时间】，同等条件下R-CNN需要47.0s/image，快146倍；采用SVD测试时间为0.22s/image【不包括候选区域提取时间】，快213倍；
PASCAL VOC 2007测试集上，使用VGG-16【L for large】网络不采用SVD Fast R-CNN mAP为66.9%，同等条件下R-CNN mAP为66.0%；Fast R-CNN采用SVD mAP为66.6%。

&还存在什么问题

Fast R-CNN中采用ss算法提取候选区域，而目标检测大多数时间都消耗在这里【selective search算法候选区域提取需要2~3s，而提特征分类只需要0.32s】，无法满足实时应用需求，而且Fast R-CNN并没有实现真正意义上的端到端训练模式【候选区域是使用selective search算法先提取出来的】；

那有没有可能使用CNN直接产生候选区域并对其分类呢？Faster R-CNN框架就是符合这样需求的目标检测框架。

zj134_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Fast R-CNN理解

原文链接：Fast R-CNN论文详解 - WoPawn的博客参考链接：Object Detection系列（三） Fast R-CNN创新点规避R-CNN中冗余的特征提取操作，只对整张图像全区域进行一次特征提取；用RoI pooling层取代最后一层max pooling层，同时引入建议框信息，提取相应建议框特征；Fast R-CNN网络末尾采用==并行（如果串行，实现不...
复制链接

扫一扫