Fast R-CNN论文解读

Fast R-CNN论文解读

一、相关知识

首先要了解R-CNN和SPPnets存在的不足之处:
R-CNN:
1、多层结构,比较冗杂。
2、时间和空间开销较大。
3、目标检测过程太慢。
SPPnets:
1、和R-CNN一样依然是多层结构较为繁琐。
2、微调算法不能更新卷积层,限制了深层神经网络的准确性。

二、论文贡献

提出了Fast R-CNN算法,弥补了R-CNN和SPPnets的不足之处,具有以下几个优点:
1、相比于R-CNN、SPPnets具有更高的精度和速度。
2、训练是一步到位,使用了一个多任务loss。
3、训练可以更新所有神经网络层。
4、对于特征捕捉没有硬盘存储需求。

三、模型结构

在这里插入图片描述
1、RoI 池化层

RoI池化层使用最大池化来把图片特征转化为有效的RoI区域,使其成为有一个特定空间范围的特征图。每一个RoI由四个元素来定义(r,c,h,w),以此来确定左上角位置坐标(r,c),以及它的高度和宽度(h,w)。

2、来自预训练网络的初始化

作者使用了三个预训练好的ImageNet网络,每一个网络有5个池化层和13个卷积层。经历了以下三个步骤:
第一、最后一层最大池化层被RoI池化层替换,通过设定H和W来让其与第一层全连接层相适合。
第二、神经网络的最后一层全连接层和softmax被两个兄弟层替换。
第三、神经网络被修正为接收两种数据输入:一类是图片,另一类是这些图片中的RoIs区域。

3、检测的微调

在Fast R-CNN中,作者提出了一种更有效率的取样方式。首先取样N张图片然后从每张图片中取出R/N个RoIs区域。对于来自相同图片的RoIs共享计算和记忆。除了这个,作者还优化了softmax分类器和BB回归,而不是训练一个softmax分类器SVMs和三个分开区域的回归。

以下分别对loss、mini-batch sampling strategy、通过RoI的反向传播、SGD算法进行介绍:

Multi-task loss
p:每一个种类的概率。
t:BB回归偏置,有四个参数(x,y,w,h),确定回归框的位置和尺寸。
u:每一个训练的RoI绑定的真实类别标签。
v:每一个BB回归框目标的真实值。
λ:控制两个loss的平衡。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Mini-batch sampling
每一个mini-batch来源于两张图片,取mini-batch的大小等于128,这样每张图片就有64个RoIs样本。对于提取出来的这些RoIs,取和真实值的回归框重叠超过0.5的作为类别的基准,其余的RoIs来自于和真实值有最大IoU的目标区域。这些是背景样本,令u=0。

Back-propagation through RoI pooling layers
x(i)表示第i层RoI池化层的输入,y表示输出。
在这里插入图片描述
SGD hyper-parameters:
对于每一层来说,权重的学习率为1,偏差的学习率为2,整体的学习率为0.001.当在VOC07和VOC12上训练时,运行了SGD算法30000次mini-batch迭代。

四、实验设计

此图为使用SVD算法前后全连接层的时间消耗图
数据集上的比较结果:
实验中使用了三个预训练好的ImageNet模型,此处记作S/M/L,分别代表小、中、大。
以下为与多个模型的比较结果:在这里插入图片描述
训练和测试时间:
在这里插入图片描述
对于微调层的确定:
在这里插入图片描述
此处作者有两个发现:
(1)相较于从conv3_1开始学习,从conv2_1开始让训练变慢。(12.5 vs 9.5)
(2)从conv1_1开始更新超出了GPU的记忆负荷。

五、设计评估

  • 多任务训练是否有帮助?
    为了解决这个问题,作者训练了只含有L(cls)损失函数的基线网络,并把这个基线分为了S,M,L三个类别。
    在这里插入图片描述

  • 尺度不变性:暴力解决还是巧妙解决?
    以下是多尺度vs单尺度:
    在这里插入图片描述
    可以看出,单尺度和多尺度在精度上差别并不大,而且多尺度在计算时间上还有很大的开销。

  • 是否需要更多的训练数据?
    通过扩大数据集的容量,mAP从66.9%提高到了70.0%,mini-batch的迭代次数也从40k增加到了60k.

  • SVMs是否超过softmax?
    作者通过在模型中训练 hard negative mining ,来看模型对VOV07数据集的识别效果:
    在这里插入图片描述

  • 提议越多效果越好吗?
    在这里插入图片描述
    通过图片看出,mAP先增然后又轻微的下降随着proposal的不断增加。图中的Average Recall(AR)表示目标提议的质量,可以看出AR与mAP并没有多大的联系。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值