基于region proposal方法
R-CNN是针对区域提取特征的目标检测模型
检测流程:通过selective search的方式从图片中提取可能的目标的候选窗口,将窗口warp到同一个尺寸,通过卷积网络从warp之后的候选窗口提取特征,将特征送给分类器进行分类,最后再加上bounding box regression等操作得到更准确的目标位置。总结起来就是先训练SVM分类器,后进行boudingbox的regression操作。
难点:1:获取区域目标比较费时,
2:由于各区域不共享特征,重复计算,训练过程比较费时,
3:分类器采用SVM,而SVM的存储是需要将数据存储在磁盘空间中,需要额外考虑这点。
4:训练比较麻烦,首先需要先训练分类模型网络,进而对boundingbox进行回归计算。
Fast-RCNN
通过引入roi_pooling解决针对区域提取特征造成的重复计算的情况,它允许输入具有任何尺度,经过ROI将box分为4*4,8*8等同样数量的网格,然后对每个网格通过max,avg等操作计算相应的特征,就可以将不同尺寸的box转化为相同维度的特征,在最后的损失函数层使用了多任务损失函数(multi-task loss),同时进行分类和位置框的回归。
特点:
1:实现端到端的训练,除了proposal提取阶段,同时进行分类与回归过程。
2:所有的特征都暂存在显存中,就不需要额外的磁盘空。在最后将分类器换成两个softmax分类器,一个针对区域的分类(包含背景),一个针对bounding box的微调。
3:提出了一个ROI_pooling层, ROI不仅完成了特征图的映射关系,并且将特征图固定到单个尺寸。
4:整张图上的proposal共享特征提取层,训练速度显著提升。
难点:由于SS方法获取区域目标,只能在CPU上进行,比较费时。
Faster-RCNN
为了解决获取区域目标速度慢的问题,提出了RPN网络,RPN的核心思想是使用卷积神经网络直接产生region proposal,使用的方法本质上就是滑动窗口。RPN的设计比较巧妙,RPN只需在最后的卷积层上滑动一遍,并在每个位置引入多尺度多长宽比的anchor窗口来捕捉未知尺寸和ratio rate的目标。
特点:
1:提出一个全卷积网络作为为