KeyPoint of《Fast R-CNN》

Introduction

(1)目标检测比目标识别更复杂。其原因是,检测需要将目标精准的定位,这其中包括了候选框的生成,以及将粗定位的候选框refined为精准的位置。
(2)本文使用了端到端的训练方法。该方法jointly learns to classify object proposals and refine there spatial location
(3)R-CNN速度慢
(4)SPPnet速度比R-CNN速度快,但其依旧存在和R-CNN一样,多阶段等缺点。
SPPnet带来了速度的提升
RCNN慢的原因是,对于每一个proposal都进行前向计算,而没有共享计算。
然而,SPPnet方法对于全图计算特征图。然后,对于每一个proposal,其特征的提取是来自于6*6大小的特征图,该特征图是使用maxpooling将proposal对应位置的feature map的转换而来。最后,根据这6*6大小的特征进行proposal的分类。
(5)Fast R-CNN是综合和R-CNN和SPPnet的长处而实现,其优点如下:

  • Higher detection quality (mAP) than R-CNN, SPPnet
  • Training is single-stage, using a multi-task loss
  • Training can update all network layers
  • No disk storage is required for feature caching

2 Fast R-CNN architecture and training

input: entire image and a set of proposals,这些proposals是来源于SS或者DPM
Net: VGG16
output: feature vector branch into 2 layer:
(1)the softmax probability estimates over K object classes plus a catch-all “background” class,在网络结构中设置为21。
(2)four real-valued numbers for each of the K object classes. four real-values encodes refined bounding-box positions for one of the K classes,在网络结构中设置为84,每一类均有4个坐标值。

2.1 The RoI pooling layel

max pooling to a small feature map with a fixed spatial extent of H*W,pooling后的大小是确定的大小。

2.2 Initializing from pre-trained networks

文章使用了预训练的网络来进行finetune,由于预训练的网络是用于分类的,故而需要将其改为适用于目标检测的网络。其中主要有如下3个调整:
(1) last max pooling is replaced by RoI pooling
(2) 将分类数为1000的全连接层改为two sibiling layers
(3) 其输入层包括图像和对应的Roi信息

2.3 Fine-tuning for detection

(1) SPPnet存在权值更新的缺陷。其根本原因是,每一个训练样本,即一个roi是来自不同的图像。一个RoI可能有很大的感受野,常常会横跨整个输入图像。由于前向必须处理整个感受野,因此,训练的输入必须是很大,通常是整幅图像。
(2)Fast R-CNN使用了更高效的方式进行训练。在一个batch中,首先是随机选取N张图像,然后对每符图像采样R/N个RoI区域。严格的说,来源于相同图像的RoIs共享计算结果。
(3)这种一幅图像中采用多个RoI的方式会引起训练的过拟合,因为,同符图像中的多个RoI是具有相关性的。但这个担心在实际训练过程中并未发生
(4)Multi-task loss是指预测类别的分类loss和预测boundbox位置的回归loss一起计算得到最终的loss。
其中,就输入而言,每一个roi均有一个类别值,和一个bounding-box。在计算回归loss的公式中,背景类回归loss设置为0。其原因是:一般来说,catch-all background 的类别为0。当类别为0时,背景的RoI不存在,其Lloc的值设置为0
(5)Mini-batch sampling
对每个SGD中,将N设置为2,对每个图像选取64个RoI,和RCNN中一样,将IoU大于0.5的作为目标。将IoU在[0.1,0.5)作为背景,将小于0.1的部分作为hard example mining.
(6)Back-propagation through RoI pooling layer

2.4 Scale invariance

我们探索了2种方式来实现检测过程中的尺寸不变。
(1) 在训练和测试过程中,图像必须是预定义的大小。
(2) 多尺度的方法,通过图像金字塔提供了近视的尺度不变。在测试阶段,图像金字塔被用于scale-normalize每一个object proposal。在训练阶段,随机的采样一个金字塔尺寸作为输入。

3 Fast R-CNN detection

假设object proposals 已经被预先计算。Fast RCNN是使用SS来得到proposal,然后对生成框的图像进行前向得到检测结果。

参考文章

http://blog.csdn.net/xiaoye5606/article/details/71191429
http://blog.csdn.net/shenxiaolu1984/article/details/51036677

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值