首先我们从CVPR2016观察一下目标检测新进展。2016年的CVPR会议目标检测的方法主要是基于卷积神经网络的框架,代表性的工作有ResNet(在faster R-CNN中将ResNet替换VGG)、YOLO(回归检测框架)、LocNet(更精准定位)、HyperNet(神经网络高层信息利于识别,底层特征利于定位,高低层特征融合)、ION(在Fast R-CNN基础上增加上下文信息)、G-CNN(减少潜在框)。
基本都是在faster R-CNN 框架下做改进,YOLO在架构上有所创新。faster R-CNN作为目前深度学习应用于目标检测的一种重要方法,一下5篇论文大致反映了自2013年RGB大神提出R-CNN(将深度学习引入目标检测问题)以来,深度学习算法在目标检测领域的一个发展历程。
R-CNN——>SPPnet——>Fast R-CNN——>faster R-CNN——>YOLO
以下对各算法提出的背景与解决的问题做出简单梳理:
1、 目标检测进展缓慢,CNN在图片分类中取得重大成功。
提出R-CNN:将检测问题转化成分类问题,应用CNN。
选择性搜索(SS)提取region proposal、CNN提取各region的特征、SVM分类、边界框(BB)回归。
2、 CNN要求输入图片尺寸固定,各proposal特征图计算不共享。
提出:SPPnet,引入SPP层解除固定尺寸约束。
3、 太多候选定位区域要被处理;这些候选取仅是粗略定位。
提出:Fast R-CNN,结合了学习分类目标候选区与改善他们空间定位的单步训练算法