YOLO（You Only Look Once）算法详解

最新推荐文章于 2025-05-09 18:31:57 发布

AI之路

最新推荐文章于 2025-05-09 18:31:57 发布

阅读量10w+

点赞数 170

分类专栏：深度学习计算机视觉目标检测-object detection 文章标签：算法深度学习与计算机视觉

本文链接：https://blog.csdn.net/u014380165/article/details/72616238

版权

这篇博客主要介绍下YOLO v1算法（CVPR2016的文章）。YOLO是目前比较流行的object detection算法，速度快且结构简单，其他的object detection算法如faster RCNN，SSD相信大家也不陌生，以后有机会再介绍。另外提一下，这里算法部分介绍的是YOLO的第一个版本，而现在YOLO的官网上已经有YOLO v2的实现了，这个后续再介绍。

论文名称：You only look once unified real-time object detection
论文链接

1、YOLO v1 算法内容

作者在YOLO算法中把物体检测（object detection）问题处理成回归问题，用一个卷积神经网络结构就可以从输入图像直接预测bounding box和类别概率。

YOLO算法的优点：1、YOLO的速度非常快。在Titan X GPU上的速度是45 fps（frames per second），加速版的YOLO差不多是150fps。2、YOLO是基于图像的全局信息进行预测的。这一点和基于sliding window以及region proposal等检测算法不一样。与Fast R-CNN相比，YOLO在误检测（将背景检测为物体）方面的错误率能降低一半多。3、YOLO可以学到物体的generalizable representations。可以理解为泛化能力强。4、准确率高，有实验证明。

算法结构图如Fig1：结构上主要的特点就是 unified detection，不再是原来许多步骤组成的物体检测，这使得模型的运行速度快，可以直接学习图像的全局信息，且可以end-to-end训练。

这里写图片描述

算法首先把输入图像划分成S*S的格子，然后对每个格子都预测B个bounding boxes，每个bounding box都包含5个预测值：x,y,w,h和confidence。x,y就是bounding box的中心坐标，与grid cell对齐（即相对于当前grid cell的偏移值），使得范围变成0到1；w和h进行归一化（分别除以图像的w和h，这样最后的w和h就在0到1范围）。原文如下：

最低0.47元/天解锁文章