目标检测-One Stage-YOLOv1

学海一叶

已于 2023-12-29 09:21:25 修改

阅读量1.4k

点赞数 18

分类专栏：目标检测文章标签：目标检测 YOLO 人工智能计算机视觉算法

于 2023-12-28 15:52:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/long11350/article/details/135269534

版权

目标检测专栏收录该内容

20 篇文章 1 订阅

订阅专栏

本文详细解析了YOLOv1的网络结构、流程，包括其作为OneStage算法的革新之处，如直接回归目标位置和分类、去除候选区域、以及损失函数设计。尽管速度快但精度相对较低，主要优点是全局视野和快速检测。

摘要由CSDN通过智能技术生成

文章目录

前言
一、YOLOv1的网络结构和流程
二、YOLOv1的损失函数
三、YOLOv1的创新点
总结

前言

前文目标检测-Two Stage-Mask RCNN提到了Two Stage算法的局限性：

速度上并不能满足实时的要求

因此出现了新的One Stage算法簇，YOLOv1是目标检测中One Stage方法的开山之作，不同于Two Stage需要先通过RPN网络得到候选区域的方法，YOLOv1将检测建模为一个回归问题，直接在整张图的特征图（Feature Map）上进行目标的定位和分类，因此速度比当时正红的Fast R-CNN快很多。而且，也正是因为YOLOv1看的是全局的信息，把背景误判成目标的错误率比只看候选区的Fast R-CNN低很多，但整体的准确率还是Fast R-CNN高。

提示：以下是本篇文章正文内容，下面内容可供参考

一、YOLOv1的网络结构和流程

首先将输入图像划分成7 * 7的网格
使用ImageNet数据集（224大小）对前20层卷积网络进行预训练
使用PASCAL VOC数据集（448大小）对完整的网络进行对象识别和定位的训练
对于每个网格都预测2个边框（bounding box），即预测98（7 * 7 * 2）个目标窗口，输出7 * 7 * 2 * 30 的张量。

ps：最后一维为30，包含每个预测框的分类与位置信息：20个类别的概率+2个边框的置信度+2*4（2个边框的位置，每个边框4个参数：x_center, y_center, width, height）

根据上一步预测出98个目标窗口，使用非极大值抑制NMS去除冗余窗口

ps：YOLOv1的最后一层采用线性激活函数，其它层都是Leaky ReLU。训练中采用了drop out和数据增强（data augmentation）来防止过拟合。

二、YOLOv1的损失函数

在这里插入图片描述
可看出由5个部分组成：（真阳样本的中心定位误差、宽高误差、confidence误差），负样本confidence误差，正样本类别误差

可以看到宽高误差先取了平方根，这样可以降低大小对象对差值敏感度的差异
超参数 $\lambda_{coord}=5，\lambda_{noobj}=0.5$ ，可看出真阳样本位置误差的权重较高，负样本置信度误差权重低

三、YOLOv1的创新点

去除候选区模块，直接将目标检测任务转换成一个简单的回归问题，大大加快了检测的速度（45fps-155fps）
由于每个网络预测目标窗口时使用的是全图信息（图片的全局特征），使得false positive比例大幅降低（充分的上下文信息），precision较高

总结

尽管YOLOv1速度提升很多，但是精度较低：

每个格子只能预测一个物体，且仅利用了单尺度特征图，对较小对象和密集型的物体检测不友好
7 * 7的粗糙网格内对目标框不加限制的回归预测，使得定位不够精准
预训练时与实际训练时输入大小不一致，模型需要去适应这种分辨率的转换，会影响最终精度

关注

18
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

学海一叶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。