YOLO同样是经典论文,后续很多论文以此为基础,例如YOLO9000、YOLOv3等, 如果有写的不对、有问题或者看不懂的地方,还望指正。如果有了新的理解,我会持续更新。
文章2016年发表,当时的视觉检测模型有两个问题,一个是速度快但是准确率差,另一种是准确率高但是速度很慢(faster rcnn 当时只有 3 - 5 FPS)。这类,无论在学术界还是工程界,都有很大的改进空间。作者为此提出了YOLO。
不说没用的,还是主要看目标检测的部分和YOLO本身的特点。
首先看YOLO的工作流程:
上图是原文中的,工作流程分成三个步骤:
- 缩放图像
- 将图像过全卷积神经网络
- 利用极大值抑制(NMS)进行筛选
然后来看算法的具体流程。
一 、图像分割
在YOLO中,一张输入图像首先被分成了 S × S 个均等大小的栅格,每一个格子都称作一个 grid cell。