本文是对YOLO的全面解释,觉得有用请关注我的博客,YOLO的后续版本将会跟进哦!
物体检测object detection是计算机视觉中一个很热门的方向,前前后后也提出了很多很多不同的方法,但是在YOLO之前,大多是将其视为分类问题,而YOLO的出现,打破了这一局限,采用回归的方式来解决问题,并且取得了重大成果。
所谓“天下武功,唯快不破”说的正是速度的重要性,虽然之前的模型R-CNN系列等能达到较高的准确率,但是其速度实在是不可恭维,无法应用在实际场景中。而YOLO的一大优点就是检测速度非常快,在一块 Titan X GPU上能达到45FPS,也就是说已经real-time了。下面我们来看一下YOLO的version 1
一、概述
下图是YOLO的整体描述,就三个步骤:
- 将image大小缩放到448*448
- 以image为输入,经CNN处理,得到预测分类和位置的中间值
- 采用非极大值的方式,筛选结果
二、unified detection
作者提出的YOLO将预测分类和bounding box结合在一起,是一个end-to-end的模型,和之前提出的分阶段模型有极大区别,因此称之为统一检测(unified detection)
-
首先,作者提出的模型将输入图像