YOLOv1到YOLOv10 综述: 最快、最准确的实时目标检测系统

Phoenixtree_DongZhao

已于 2024-08-24 21:46:19 修改

阅读量3.4k

点赞数 37

分类专栏： Object Detection MyDLNote-Network 文章标签： YOLO 目标检测人工智能

于 2024-08-24 21:30:43 首次发布

本文链接：https://blog.csdn.net/u014546828/article/details/141504512

版权

YOLOv1 to YOLOv10:

The fastest and most accurate real-time object detection systems

2408.09332 (arxiv.org)

This is a comprehensive review of the YOLO series of systems. Different from previous literature surveys, this review article re-examines the characteristics of the YOLO series from the latest technical point of view. At the same time, we also analyzed how the YOLO series continued to influence and promote real-time computer vision-related research and led to the subsequent development of computer vision and language models. We take a closer look at how the methods proposed by the YOLO series in the past ten years have affected the development of subsequent technologies and show the applications of YOLO in various fields. We hope this article can play a good guiding role in subsequent real-time computer vision development.

这是一篇对YOLO系列系统的全面综述。与以往的文献综述不同，本文从最新的技术角度出发，重新审视了YOLO系列的特点。

同时，本文还分析了YOLO系列如何继续影响和推动实时计算机视觉相关研究，并引领了计算机视觉和语言模型的后续发展。

本文深入探讨了YOLO系列在过去十年中提出的方法如何影响后续技术的发展，并展示了YOLO在各个领域的应用。

本文希望本文能在后续的实时计算机视觉发展中发挥良好的指导作用。

Introduction

目标检测是计算机视觉中的一项基础任务，可以支持广泛的下游任务。例如，它可以用于辅助实例分割、多目标跟踪、行为分析和识别、人脸识别等。因此，它在过去几十年中一直是一个热门的研究课题。近年来，随着移动设备的普及，在边缘进行实时目标检测的能力已成为各种现实世界应用的必要组成部分。属于此类应用的任务包括自动驾驶、工业机器人、身份验证、智能医疗、视频监控等。在众多实时目标检测算法中，近年来开发的YOLO（You Only Look Once）系列（从v1到v10）[1]–[10]尤为突出。它极大地广泛影响了计算机视觉领域的研究。本文将回顾YOLO系列技术及其对当代实时计算机视觉系统发展的影响。

这是一篇对YOLO系列系统的全面综述。与以往的文献综述不同，本文从最新的技术角度出发，重新审视了YOLO系列的特点。同时，本文还分析了YOLO系列如何继续影响和推动实时计算机视觉相关研究，并引领了计算机视觉和语言模型的后续发展。本文深入探讨了YOLO系列在过去十年中提出的方法如何影响后续技术的发展，并展示了YOLO在各个领域的应用。本文希望本文能在后续的实时计算机视觉发展中发挥良好的指导作用。

YOLO系列

YOLO（You Only Look Once）是当今最先进的实时目标检测器的代名词。YOLO与传统目标检测系统最大的区别在于，它摒弃了以往需要先找到图像中物体可能存在的位置，再逐个分析这些位置内容的两阶段目标检测方法。YOLO提出了一种统一的一阶段目标检测方法，这种方法简洁高效，使得YOLO在各种边缘设备和实时应用中得到了广泛应用。接下来，本文将介绍几个具有代表性的YOLO版本，并且这篇文献综述与以往的不同之处在于，本文将重点放在最新的目标检测方法上，并回顾这些方法的优缺点。

A. YOLO (YOLOv1)

Redmon等人在2015年首次提出了一阶段目标检测器，即YOLOv1，其架构如图1所示。如图所示，输入图像首先通过卷积神经网络（CNN）进行特征提取，然后通过两个全连接层获得全局特征。之后，将上述全局特征重新整形回二维空间进行逐网格预测。YOLOv1具有以下重要特点：

一阶段目标检测器

如图1所示，YOLOv1直接对特征图的每个网格进行分类，并预测B个边界框。每个边界框将分别预测物体的中心（bx, by）、物体的大小（bw, bh）和物体的置信度（bobj）。这种一阶段预测方法不需要依赖于在目标候选生成阶段必须执行的选择性搜索，从而可以避免因手动设计线索不足而导致的漏检。此外，一阶段方法还可以避免第二阶段中全连接层产生的大量参数和计算，以及连接两个阶段RoI操作时所需的不规则操作。因此，YOLO的设计能够更及时有效地捕获特征和进行预测。接下来，本文将更深入地了解YOLOv1中最重要的概念，即无锚点边界框回归、IoU感知的目标性和全局上下文特征。

无锚点边界框回归

在公式1中，YOLOv1直接预测物体在整个图像中长度和宽度的比例。虽然无锚点方法需要优化一个较大的长度和宽度动态范围，这使得收敛更加困难，但它也具有能够更准确地预测一些特殊示例的优势，因为它不受锚点的限制。

IoU感知的目标性

为了更准确地衡量边界框预测的质量，YOLOv1提出的方法是预测某个边界框与分配的真实边界框之间的IoU值，并将其作为IoU感知分支预测的目标性的软标签。最后，边界框的置信度分数由目标性分数和分类概率的乘积确定。

全局上下文特征

为了确保一个网格不仅能看到局部特征而导致预测错误，YOLOv1使用全连接层来检索全局上下文特征。在这样的设计中，无论底层CNN架构是什么，每个网格在预测时都能看到足够范围的特征来预测目标对象。与快速R-CNN相比，这种设计有效地将背景错误减少了一半以上。

B. YOLO9000 (YOLOv2)

除了提出许多具有洞察力的新方法外，Redmon和Farhadi[2]还集成了各种现有技术。他们设计了一个集高精度与速度于一体的目标检测器，如图2所示。他们将整个目标检测架构转换为全卷积网络。随后，他们结合了高分辨率和低分辨率特征，并最终使用基于锚点（anchor-based）的方法进行预测。由于其简单的输入和输出格式，YOLOv2仍然是许多工业场景维护和开发中常用的主流目标检测方法之一，特别是在计算资源非常有限的低端设备上。以下本文将分别就维度聚类、直接位置预测、细粒度特征、分辨率校准以及与WordTree的联合训练等YOLOv2最关键的部分进行讨论。

维度聚类（Dimension Cluster）

YOLOv2建议使用交并比（IoU）距离作为基础，对真实边界框进行k-means聚类以获得锚点。一方面，通过维度聚类获得的锚点可以避免原来手动设置的宽高比，这种宽高比很难学习物体的边界框预测。另一方面，它也比无锚点（anchor-free）方法的边界框回归更容易收敛。

直接位置预测（Direct Location Prediction）

Faster R-CNN以锚点中心为基础，预测物体中心与锚点中心之间的偏移量。上述方法在早期训练过程中非常不稳定。YOLOv2遵循YOLOv1的物体中心回归方法，并直接根据负责预测物体的网格的左上角来预测物体中心的真实位置。

细粒度特征（Fine-grained Feature）

直通层（Passthrough layer）通过将高分辨率特征重新组织为无损的空间到深度的转换，并将其与低分辨率特征相结合来进行预测。这可以在考虑速度的同时，通过高分辨率特征增强细粒度小物体的检测能力。

分辨率校准（Resolution Calibration）

由于骨干卷积神经网络（CNN）通常使用比目标检测训练时分辨率更低的图像进行图像分类预训练，因此预训练模型从未见过较大物体的状态。YOLOv2使用与训练大小图像相同的图像分类预训练，这样目标检测训练过程就不需要额外学习新尺寸物体的信息。

与WordTree的联合训练（Joint Training with WordTree）

YOLOv2设计了使用具有与WordTree相似层次结构的ImageNet进行组softmax的训练，然后使用WordTree将COCO和ImageNet的类别集成在一起。最终，这项技术需要对ImageNet的图像分类任务和COCO的目标检测任务进行联合训练。由于上述设计，YOLOv2能够检测9000种类别的物体。

C. YOLOv3

最低0.47元/天解锁文章