KeyPoint of《Fast R-CNN》

最新推荐文章于 2024-06-20 09:49:13 发布

罗泽

最新推荐文章于 2024-06-20 09:49:13 发布

阅读量1.3k

点赞数

分类专栏： Object Detection 文章标签：算法

本文链接：https://blog.csdn.net/u013698770/article/details/54943930

版权

Object Detection 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Introduction

（1）目标检测比目标识别更复杂。其原因是，检测需要将目标精准的定位，这其中包括了候选框的生成，以及将粗定位的候选框refined为精准的位置。
（2）本文使用了端到端的训练方法。该方法jointly learns to classify object proposals and refine there spatial location
（3）R-CNN速度慢
（4）SPPnet速度比R-CNN速度快，但其依旧存在和R-CNN一样，多阶段等缺点。
SPPnet带来了速度的提升
RCNN慢的原因是，对于每一个proposal都进行前向计算，而没有共享计算。
然而，SPPnet方法对于全图计算特征图。然后，对于每一个proposal，其特征的提取是来自于6*6大小的特征图，该特征图是使用maxpooling将proposal对应位置的feature map的转换而来。最后，根据这6*6大小的特征进行proposal的分类。
（5）Fast R-CNN是综合和R-CNN和SPPnet的长处而实现，其优点如下：

Higher detection quality (mAP) than R-CNN, SPPnet
Training is single-stage, using a multi-task loss
Training can update all network layers
No disk storage is required for feature caching

2 Fast R-CNN architecture and training

input: entire image and a set of proposals，这些proposals是来源于SS或者DPM
Net: VGG16
output: feature vector branch into 2 layer:
（1）the softmax probability estimates over K object classes plus a catch-all “background” class，在网络结构中设置为21。
（2）four real-valued numbers for each of the K object classes. four real-values encodes refined bounding-box positions for one of the K classes，在网络结构中设置为84，每一类均有4个坐标值。

2.1 The RoI pooling layel

max pooling to a small feature map with a fixed spatial extent of H*W，pooling后的大小是确定的大小。

2.2 Initializing from pre-trained networks

文章使用了预训练的网络来进行finetune，由于预训练的网络是用于分类的，故而需要将其改为适用于目标检测的网络。其中主要有如下3个调整：
(1) last max pooling is replaced by RoI pooling
(2) 将分类数为1000的全连接层改为two sibiling layers
(3) 其输入层包括图像和对应的Roi信息

2.3 Fine-tuning for detection

(1) SPPnet存在权值更新的缺陷。其根本原因是，每一个训练样本，即一个roi是来自不同的图像。一个RoI可能有很大的感受野，常常会横跨整个输入图像。由于前向必须处理整个感受野，因此，训练的输入必须是很大，通常是整幅图像。
（2）Fast R-CNN使用了更高效的方式进行训练。在一个batch中，首先是随机选取N张图像，然后对每符图像采样R/N个RoI区域。严格的说，来源于相同图像的RoIs共享计算结果。
（3）这种一幅图像中采用多个RoI的方式会引起训练的过拟合，因为，同符图像中的多个RoI是具有相关性的。但这个担心在实际训练过程中并未发生
（4）Multi-task loss是指预测类别的分类loss和预测boundbox位置的回归loss一起计算得到最终的loss。
其中，就输入而言，每一个roi均有一个类别值，和一个bounding-box。在计算回归loss的公式中，背景类回归loss设置为0。其原因是：一般来说，catch-all background 的类别为0。当类别为0时，背景的RoI不存在，其L_loc的值设置为0
（5）Mini-batch sampling
对每个SGD中，将N设置为2，对每个图像选取64个RoI，和RCNN中一样，将IoU大于0.5的作为目标。将IoU在[0.1,0.5)作为背景，将小于0.1的部分作为hard example mining.
（6）Back-propagation through RoI pooling layer

2.4 Scale invariance

我们探索了2种方式来实现检测过程中的尺寸不变。
(1) 在训练和测试过程中，图像必须是预定义的大小。
(2) 多尺度的方法，通过图像金字塔提供了近视的尺度不变。在测试阶段，图像金字塔被用于scale-normalize每一个object proposal。在训练阶段，随机的采样一个金字塔尺寸作为输入。

3 Fast R-CNN detection

假设object proposals 已经被预先计算。Fast RCNN是使用SS来得到proposal，然后对生成框的图像进行前向得到检测结果。

参考文章

http://blog.csdn.net/xiaoye5606/article/details/71191429
http://blog.csdn.net/shenxiaolu1984/article/details/51036677

罗泽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KeyPoint of《Fast R-CNN》

Introduction（1）目标检测比目标识别更复杂。其原因是，检测需要将目标精准的定位，这其中包括了候选框的生成，以及将粗定位的候选框refined为精准的位置。（2）本文使用了端到端的训练方法。该方法jointly learns to classify object proposals and refine there spatial location （3）R-CNN速度慢（...
复制链接

扫一扫

专栏目录