YOLOv1
2016年,Joseph Redmon、Santosh Divvala、Ross Girshick等人提出了一种单阶段(one-stage)的目标检测网络,它的检测速度非常快,每秒可以处理45帧图片,能够轻松地实时运行。由于其速度之快和其使用的特殊方法,作者将其取名为:You Only Look Once(也就是我们常说的YOLO的全称),并将该成果发表在了CVPR 2016上,从而引起了广泛地关注。
核心思想:把目标检测转变成一个回归问题,利用整张图作为网络的输入,仅仅经过一个神经网络,得到bounding box(边界框) 的位置及其所属的类别。
1. 网络结构
YOLOv1的网络结构非常清晰,是一种传统的one-stage的卷积神经网络:
- 输入:448×448×3的彩色图片
- 隐藏层:由若干卷积层和最大池化层组成,用于提取图片的抽象特征
- 全连接层:最后由两个全连接层组成,用来预测目标的位置和类别概率值
- 输出:7×7×30的预测结果
2. 实现细节
(1)检测策略
YOLOv1采用的是分而治之的策略,将一张图片平均分成7×7个网格,每个网格分别负责预测中心点落在该网格内的目标。
(2)具体过程
- 将一幅图像分成 S×S个网格(grid cell),如果某个 object 的中心落在这个网格中,则这个网格就负责预测这个object
- 每个网格要预测 B 个bounding box,每个 bounding box 要预测 (x, y, w, h) 和 confidence 共5个值
- 每个网格还要预测一个类别信息,记为 C 个类
总的来说S×S 个网格,每个网格要预测 B个bounding box ,还要预测 C 个类。网络输出就是一个 S × S × (5×B+C) 的张量。
(在实际过程中,YOLOv1把一张图片划分为了7×7个网格,并且每个网格预测2个Box(Box1和Box2),20个类别。)
(3)目标损失函数
- 损失由三部分组成,分别是:
- 坐标预测损失
- 置信度预测损失
- 类别预测损失
- 其中,坐标预测损失:
- w和h在进行误差计算的时候取的是它们的平方根,原因是对不同大小的bounding box预测中,相比于大bounding box预测偏一点,小box预测偏一点更不能忍受
- 坐标预测损失比类别预测损失更大,所以增加对坐标预测损失的惩罚
3. 性能表现
(1)优点
- YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 张图像;YOLO的极速版本每秒可以处理150帧图像。这就意味着 YOLO 可以以小于 25 毫秒延迟,实时地处理视频。对于欠实时系统,在准确率保证的情况下,YOLO速度快于其他方法
- YOLO 实时检测的平均精度是其他实时监测系统的两倍
- 迁移能力强,能运用到其他的新的领域(比如艺术品目标检测)
(2)局限性
- YOLO对相互靠近的物体,以及很小的群体检测效果不好,这是因为一个网格只预测了2个框,并且都只属于同一类。
- 由于损失函数的问题,定位误差是影响检测效果的主要原因,尤其是大小物体的处理上,还有待加强。(因为对于小的bounding boxes,small error影响更大)
- YOLO对不常见的角度的目标泛化性能偏弱