You Only Look Once（Yolov1）

长浔

于 2022-10-03 10:42:45 发布

阅读量753

点赞数

分类专栏： YOLO 文章标签：深度学习计算机视觉目标检测

原文链接：https://blog.csdn.net/wjinjie/article/details/107509243

版权

YOLO 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

YOLOv1

2016年，Joseph Redmon、Santosh Divvala、Ross Girshick等人提出了一种单阶段（one-stage）的目标检测网络，它的检测速度非常快，每秒可以处理45帧图片，能够轻松地实时运行。由于其速度之快和其使用的特殊方法，作者将其取名为：You Only Look Once（也就是我们常说的YOLO的全称），并将该成果发表在了CVPR 2016上，从而引起了广泛地关注。

核心思想：把目标检测转变成一个回归问题，利用整张图作为网络的输入，仅仅经过一个神经网络，得到bounding box（边界框）的位置及其所属的类别。

1. 网络结构

在这里插入图片描述
YOLOv1的网络结构非常清晰，是一种传统的one-stage的卷积神经网络：

输入：448×448×3的彩色图片
隐藏层：由若干卷积层和最大池化层组成，用于提取图片的抽象特征
全连接层：最后由两个全连接层组成，用来预测目标的位置和类别概率值
输出：7×7×30的预测结果

2. 实现细节

（1）检测策略

YOLOv1采用的是分而治之的策略，将一张图片平均分成7×7个网格，每个网格分别负责预测中心点落在该网格内的目标。

（2）具体过程

将一幅图像分成 S×S个网格（grid cell），如果某个 object 的中心落在这个网格中，则这个网格就负责预测这个object
每个网格要预测 B 个bounding box，每个 bounding box 要预测 (x, y, w, h) 和 confidence 共5个值
每个网格还要预测一个类别信息，记为 C 个类

总的来说S×S 个网格，每个网格要预测 B个bounding box ，还要预测 C 个类。网络输出就是一个 S × S × (5×B+C) 的张量。
（在实际过程中，YOLOv1把一张图片划分为了7×7个网格，并且每个网格预测2个Box（Box1和Box2），20个类别。）

（3）目标损失函数

在这里插入图片描述

损失由三部分组成，分别是：
- 坐标预测损失
- 置信度预测损失
- 类别预测损失
其中，坐标预测损失：
- w和h在进行误差计算的时候取的是它们的平方根，原因是对不同大小的bounding box预测中，相比于大bounding box预测偏一点，小box预测偏一点更不能忍受
- 坐标预测损失比类别预测损失更大，所以增加对坐标预测损失的惩罚

3. 性能表现

（1）优点

YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 张图像；YOLO的极速版本每秒可以处理150帧图像。这就意味着 YOLO 可以以小于 25 毫秒延迟，实时地处理视频。对于欠实时系统，在准确率保证的情况下，YOLO速度快于其他方法
YOLO 实时检测的平均精度是其他实时监测系统的两倍
迁移能力强，能运用到其他的新的领域（比如艺术品目标检测）

（2）局限性

YOLO对相互靠近的物体，以及很小的群体检测效果不好，这是因为一个网格只预测了2个框，并且都只属于同一类。
由于损失函数的问题，定位误差是影响检测效果的主要原因，尤其是大小物体的处理上，还有待加强。（因为对于小的bounding boxes，small error影响更大）
YOLO对不常见的角度的目标泛化性能偏弱