论文地址:Rich feature hierarchies for accurate object detection and semantic segmentation
本文基本上是首创使用CNN进行目标检测的方法,整个算法分为三步:
1、Region proposals
使用selective search对于图像选取2000个候选框
2、Feature extraction
对每个候选框进行尺寸的调整使用wrap等操作得到227*227尺寸的图像,使用CNN网络(5个卷积层,2个FC层,使用ILSVRC2012进行pre-training,并使用wrap后的图像进行fine-tuning)对每个候选框进行特征提取,最后得到4096维特征
3、Classify regions
使用SVM对每个候选框进行分类打分,再使用greedy non-maximum suppression(非极大值抑制,参考https://blog.csdn.net/zziahgf/article/details/78525279)对每个类别进行独立判定
总结
每个图像都要提取2k个候选框后在进行特征提取,重复计算过多,整个算法分为三步进行,无法实现end-to-end