Overfeat,RCNN,Sppnet 是2014年三篇的三篇经典文献,本文就个人理解做个简单的总结比较,整理其创新思路
0,让人影响深刻的点(关键点)
1,RCNN
- two stage ,先用selective search提取候选区提升准确度,再计算特征图,进行分类定位操作
2,Overfeat
- 采用1*1卷积核对特征图全卷积,代替之前的flatten到一个列向量——保留特征图位置关系,且如此可输入不同尺寸图片,最后池化取最佳值即可
- 全面offset max-pooling:增加多种采样起始点的选择,不仅从0开始向下3*3采样,加上从1和2位置开始的额外向下采样,最终选取最大值,这样可以保留边缘信息
3,SPP-Net
- 始终将特征图卷积到4x4,2x2,1x1的固定组合,使得卷积神经网络可以有任意大小的输入
1,网络结构,实现步骤概览
1,RCNN
网络结构
实现步骤
0. 在数据集上训练CNN 一般用AlexNet+ImageNet
- Selective Search 从输入的图像中启发式的搜索出可能包好物体的区域
- 将每个区域缩放到统一大小 ,然后送入CNN中提取特征
- 使用SVM对提取的特征进行分类,判断是否属于一个类
- 通过非极大值抑制 (Non-maxium suppression)输出结果, 对于属于某一特征的候选框,用回归器进一步调整其位置