概述
YOLO原本是一句英语中的常用口语“You Only Live Once”的缩写,意思是人只活一次别太顾忌太多。而在这篇论文中,作者引用这个并把"Live"改成"Look",表示这个方法是只看一次的一步(one-stage)方法。
相比于之前的以R-CNN为代表的二阶段法,YOLO这种一阶段的目标检测的显著特点就是快,超级快(extremely fast)。
下面将着重介绍YOLO的原理和后续几个版本的更新所在何处。
YOLO
论文地址:You Only Look Once: Unified, Real-Time Object Detection
原理
YOLO对整张图片直接进行处理。首先直接分割成S乘S个小方格(论文中是7乘7),然后每个小方格对应B个(论文中是两个,一个横的,一个竖的)边界框,边界框除了包含框的位置和大小信息之外还包含了置信度。置信度是由以这个小格为中心是否有对象(是就是1,否就是0)和与真实边界框的IoU相乘。再然后,每个小方格还包括了20个类别信息。
经过如此设计,YOLO就可以将目标检测问题直接转化为