1.R-CNN:
使用selective search方法先产生region proposals,再使用浅层CNN网络进行特征提取,最后使用svm进行分类。这篇论文里提及的一个点,就是关于bbox的回归方法。由于使用selective search方法提取的每一个region都进行一次前向卷积操作,因此R-CNN方法非常耗时,不适于实际检测使用。
2.SPP-Net:
针对R-CNN多次使用CNN提取特征,有重复计算的弊端,SPP-Net提出的方法是,在原图上只提取一次特征,然后采用映射的方式,找到region在feature map上的映射区域,再将该区域送到分类器(SPP-Net使用的依然是svm)中进行训练。另外,SPP-Net所设计的网络架构(SPP)可以处理任意尺寸的输入图片,而不需要像R-CNN那样,需要事先对region进行crop/warp操作。
结果显示,由于提取特征时可以共享特征,该方法相较于R-CNN,继降低了耗时,也提升了检测精度。
3. Fast R-CNN:
这篇文章综合考虑了R-CNN和SPP-Net的优缺点,网络设计了一种ROI Pooling Layer(其实就是1个level的SPP)。这篇文章主要的共享是,将bbox回归和cls回归放在一起处理。
4. Faster R-CNN
提出了RPN网络,能够自己学习产生region proposals。实际上就是RPN+Fast R-CNN。
1.YOLO & YOLOv2
(1)边框定位不够精准,尤其是小目标
(2)目标检出率低,尤其是小目标
(3)误报少
(4)耗时少
2. SSD
(1)边框定位准
(2)目标检出率高
(3)误报相较YOLO多
(4)耗时多
3. faster- rcnn
(1)边框定位准
(2)目标检测率高
(3)耗时高
(4)训练时间长
(5)误报相较YOLO高
关于边框回归的原理解释,参考下边这个链接
http://caffecn.cn/?/question/160