YOLO:统一、实时的目标检测
这是Joseph Redmon等人于发表于CVPR 2016的一篇关于目标检测的文献,提出了目标检测领域经典的YOLO模型,一种端到端的实时目标检测方法。
1. 主要内容:将目标检测任务作为一个回归问题,而不像先前的方法那样改造分类器用来识别;
使用单个神经网络就可以从输入图像直接预测边界框和分类概率;
YOLO的速度非常快,在 TITAN X GPU上的实时处理速度达到了45fps;
YOLO的泛化能力强,效果比其他目标检测方法(DPM、R-CNN)更好;
2. 介绍:
现有的物体检测方法,都是将分类器改造,去评估一张图像的各种不同尺度的区域内,是否包含物体以及物体是种类。比如DPM对整张图片使用一个均匀移动的滑动窗口进行分类。最近的 R-CNN采用的是 region proposals 的方法,生成潜在(可能包含待检测物体)的边界框,再使用分类器去判断每个边界框里是否包含有物体,物体类别的概率和confidence。因为每个组件都需要分开训练,所以这种方法过于复杂,很难优化。
本文则将目标检测定义为单个的回归问题,直接从图像像素得到边界框的坐标和类别的概率。YOLO非常简洁(如上图所示),只用一个卷积网络就可以同步地预测多个边界框的位置和类别概率。YOLO在整张图片上面训练,可以直接优化检测性能。这种统一架构有以下几个有点:
A. YOLO特别快。在 Titan X 上,不需要经过批处理,YOLO处理速度可达到45fps,Fast-YOLO可