网上很多关于Faster RCNN的介绍,不过这一片算是比较全的了,不仅包括整体流程、思想的介绍,也包括各个实现较为深入的介绍。大概内容记录如下(仅记录目前我感兴趣的部分):
1 各种CNN模型以及数据库
自从接触基于深度学习的目标检测这一领域以来,经常遇到各种CNN模型,比如ZF模型、VGG模型等等。同时也接触到各种数据集如PASCAL VOC、MNIST、ImageNet等等,博文深度学习常用的Data Set数据集和CNN Model总结 进行了总结。
2 RCNN系列方法的介绍
RCNN算法
RCNN算法分为4个步骤
- 一张图像生成1K~2K个候选区域(采用SS方法)
- 对每个候选区域,使用深度网络提取特征
- 特征送入每一类的SVM 分类器,判别是否属于该类
- 使用回归器精细修正候选框位置
位置精修
目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。
回归器
对每一类目标,使用一个线性脊回归器进行精修。正则项λ=10000。 输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中,和真值重叠面积大于0.6的候选框。 可以看出该网络重复计算量很大,2K个候选框单独用CNN提取特征,再分类!
Fast RCNN
Fast