Fast R-CNN论文解读

最新推荐文章于 2021-12-16 15:08:08 发布

Leon嘞

最新推荐文章于 2021-12-16 15:08:08 发布

阅读量189

点赞数 1

分类专栏：目标检测文章标签：深度学习

本文链接：https://blog.csdn.net/qq_43820692/article/details/104209934

版权

目标检测专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Fast R-CNN论文解读

一、相关知识

首先要了解R-CNN和SPPnets存在的不足之处：
R-CNN:
1、多层结构，比较冗杂。
2、时间和空间开销较大。
3、目标检测过程太慢。
SPPnets:
1、和R-CNN一样依然是多层结构较为繁琐。
2、微调算法不能更新卷积层，限制了深层神经网络的准确性。

二、论文贡献

提出了Fast R-CNN算法，弥补了R-CNN和SPPnets的不足之处，具有以下几个优点：
1、相比于R-CNN、SPPnets具有更高的精度和速度。
2、训练是一步到位，使用了一个多任务loss。
3、训练可以更新所有神经网络层。
4、对于特征捕捉没有硬盘存储需求。

三、模型结构

在这里插入图片描述
1、RoI 池化层

RoI池化层使用最大池化来把图片特征转化为有效的RoI区域，使其成为有一个特定空间范围的特征图。每一个RoI由四个元素来定义（r,c,h,w),以此来确定左上角位置坐标（r,c)，以及它的高度和宽度（h,w)。

2、来自预训练网络的初始化

作者使用了三个预训练好的ImageNet网络，每一个网络有5个池化层和13个卷积层。经历了以下三个步骤：
第一、最后一层最大池化层被RoI池化层替换，通过设定H和W来让其与第一层全连接层相适合。
第二、神经网络的最后一层全连接层和softmax被两个兄弟层替换。
第三、神经网络被修正为接收两种数据输入：一类是图片，另一类是这些图片中的RoIs区域。

3、检测的微调

在Fast R-CNN中，作者提出了一种更有效率的取样方式。首先取样N张图片然后从每张图片中取出R/N个RoIs区域。对于来自相同图片的RoIs共享计算和记忆。除了这个，作者还优化了softmax分类器和BB回归，而不是训练一个softmax分类器SVMs和三个分开区域的回归。

以下分别对loss、mini-batch sampling strategy、通过RoI的反向传播、SGD算法进行介绍：

Multi-task loss：
p:每一个种类的概率。
t:BB回归偏置,有四个参数（x,y,w,h),确定回归框的位置和尺寸。
u:每一个训练的RoI绑定的真实类别标签。
v:每一个BB回归框目标的真实值。
λ：控制两个loss的平衡。
在这里插入图片描述

Mini-batch sampling：
每一个mini-batch来源于两张图片，取mini-batch的大小等于128，这样每张图片就有64个RoIs样本。对于提取出来的这些RoIs,取和真实值的回归框重叠超过0.5的作为类别的基准，其余的RoIs来自于和真实值有最大IoU的目标区域。这些是背景样本，令u=0。

Back-propagation through RoI pooling layers：
x(i)表示第i层RoI池化层的输入,y表示输出。
在这里插入图片描述
SGD hyper-parameters:
对于每一层来说，权重的学习率为1，偏差的学习率为2，整体的学习率为0.001.当在VOC07和VOC12上训练时，运行了SGD算法30000次mini-batch迭代。

四、实验设计

此图为使用SVD算法前后全连接层的时间消耗图
数据集上的比较结果：
实验中使用了三个预训练好的ImageNet模型，此处记作S/M/L，分别代表小、中、大。
以下为与多个模型的比较结果：在这里插入图片描述
训练和测试时间：

对于微调层的确定：

此处作者有两个发现：
（1）相较于从conv3_1开始学习，从conv2_1开始让训练变慢。（12.5 vs 9.5)
（2）从conv1_1开始更新超出了GPU的记忆负荷。

五、设计评估

多任务训练是否有帮助？
为了解决这个问题，作者训练了只含有L（cls)损失函数的基线网络，并把这个基线分为了S,M,L三个类别。
尺度不变性：暴力解决还是巧妙解决？
以下是多尺度vs单尺度：

可以看出，单尺度和多尺度在精度上差别并不大，而且多尺度在计算时间上还有很大的开销。
是否需要更多的训练数据？
通过扩大数据集的容量，mAP从66.9%提高到了70.0%，mini-batch的迭代次数也从40k增加到了60k.
SVMs是否超过softmax?
作者通过在模型中训练 hard negative mining ，来看模型对VOV07数据集的识别效果：
提议越多效果越好吗？

通过图片看出，mAP先增然后又轻微的下降随着proposal的不断增加。图中的Average Recall（AR）表示目标提议的质量，可以看出AR与mAP并没有多大的联系。

Leon嘞

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Fast R-CNN论文解读

Fast R-CNN论文解读一、相关知识首先要了解R-CNN和SPPnets存在的不足之处：R-CNN:1、多层结构，比较冗杂。2、时间和空间开销较大。3、目标检测过程太慢。SPPnets:1、和R-CNN一样依然是多层结构较为繁琐。2、微调算法不能更新卷积层，限制了深层神经网络的准确性。二、论文贡献提出了Fast R-CNN算法，弥补了R-CNN和SPPnets的不足之处，...
复制链接

扫一扫

专栏目录