文章目录
一、任务描述
二、设计思想
三、发展历程
-
YOLOv1
-
YOLOv2
-
YOLOv3
-
YOLOv4
四、总结
一、任务描述
目标检测是为了解决图像里的物体是什么,在哪里的问题。输入一幅图像,输出的是图像里每个物体的类别和位置,其中位置用一个包含物体的框表示。
简单说下YOLOv1,v2,v3,v4各自的特点与发展史
需要注意,我们的目标,同时也是论文中常说的感兴趣的物体,指我们关心的类别(行人检测只检测人,交通检测只关心交通工具等),或者数据集包含的类别,并不是图像里所有的物体都是目标,比如建筑,草坪也是物体,但他们常常是背景。
从计算机视觉的角度看,目标检测是分类+定位,从机器学习的角度看,目标检测是分类+回归。
二、设计思想
目标检测架构分为两种,一种是two-stage,一种是one-stage,区别就在于 two-stage 有region proposal 过程,类似于一种海选过程,网络会根据候选区域生成位置和类别,而 one-stage 直接从图片生成位置和类别。
今天提到的 YOLO 就是一种 one-stage 方法。YOLO 是 You Only Look Once 的缩写,意思是神经网络只需要看一次图片,就能输出结果。
简单说下YOLOv1,v2,v3,v4各自的特点与发展史
YOLO 一共发布了四个版本,其中 YOLOv1 奠定了整个系列的基础,后面的系列就是在第一版基础上的改进,只为提升性能。
YOLOv1 的检测方法如下:
①将输入图像划分为 S×S 网格(grid),比如这里划分成 7×7=49 个 grid,如果目标的中心落入网格单元,则该网格单元负责检测该目标。注意不是整个物体落入单元格,只需要物体中心在即可。
简单说下YOLOv1,v2,v3,v4各自的特点与发展史
把图片划分成 49 个网格
②每个网格单元预测 B(文中 B=2) 个边界框和这些框的置信度得分。这个分数反映这个框包含物体的概