R-CNN(Regions with CNN features,具有CNN特征的区域),Ross B. Girshick在2013.11年提出,用CNN代替了传统的颜色、纹理等浅层的特征,在DPM多年瓶颈期后,显著提升了检测率,但没有改进传统的流程框架,依然还存在检测速度、精度不满意。Rich feature hierarchies for accurate object detection and semantic segmentation,作者主页核心思想:
- 选择性搜索选出推荐区域,在自下而上的区域推荐上使用CNN提取特征向量
- 分别训练三个模型:CNN fine-tuning模型(提取图像特征,AlexNet训练ImageNet)、SVM分类器(预测类别)、回归模型(修正边界,L2损失)
- 提出了数据缺乏时训练大型CNNs的“辅助数据集有监督预训练—小数据集特定领域调优”训练方法。
- VOC2007 58.5%,VOC2010 53.7%
缺点:
- 重叠区域特征重复计算,GPU还要40s;
- 输入CNN的区域推荐图片有缩放会造成物体形变、信息丢失,导致性能下降。
- 分别训练三个模型,繁琐复杂:因为用的是传统目标检测的框架,需要训练CNN fine-tuning模型(提取图像特征)、SVM分类器(预测类别)、回归模型(修正边界),中间数据还需要单独保存。训练SVM时需要单独生成样本,而这个样本和CNN提取带出来的样本可能存在差异,将各个模型拼在一起就会有性能损失。
- 候选框选择搜索算法还是耗时严重,2000个候选框都需要CNN单独提取特征,计算量很大;
- 多个候选区域对应的图像需要预先提取,占用较大的磁盘空间;
目标检测系统:(分类和定位)
- 通过选择性搜索从图像提取大约2000个自下而上的区域推荐
- 用AlexNet提取每个变形后的区域推荐(227×227)的特征
- 使用线性SVM对每个区域的特征向量进行分类,再边界框回归精修得到对应的位置坐标信息。
![2dc89563f6c4c85b49d10267091012c5.png](https://img-blog.csdnimg.cn/img_convert/2dc89563f6c4c85b49d10267091012c5.png)
![dcff3476a5da83a6ac9214ecc8e689d6.png](https://img-blog.csdnimg.cn/img_convert/dcff3476a5da83a6ac9214ecc8e689d6.png)
检测算法架构(预测)
- 提取