YOLOv1论文阅读笔记

爱吃兔子的胡萝卜RR

已于 2024-06-05 10:27:52 修改

阅读量474

点赞数 12

文章标签： YOLO 论文阅读深度学习计算机视觉图像处理

于 2024-06-03 16:20:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hjhr2018/article/details/139418053

版权

论文：《You Only Look Once: Unified, Real-Time Object Detection》（CVPR2016）

代码：https://gitcode.net/mirrors/alexeyab/darknet?utm_source=csdn_github_accelerator

目录

2、处理过程

3、主要思想

4、网络结构

5、损失函数

1、创新点

（1）Two-stage（RCNN，fastRCNN，faster-RCNN）→ One stage（YOLO系列）；

（2）检测任务 → 回归任务，仅仅通过一个神经网络，就可以得到bounding box的位置及其所属类别（端到端检测）；

（3）在整张图像上进行推断，与fast-RCN相比，有效减少了背景误检数量；

（4）检测速度快：45FPS (448×448），准确率高：63.4mAP。

2、处理过程

（1）将输入图像的大小调整为448×448，分割得到7×7大小的网格；

（2）通过CNN提取特征和预测；

（3）利用非极大值抑制（NMS）进行筛选。

3、主要思想

（1）YOLO将目标检测问题作为回归问题。将输入图像分成S×S的网格（grid cell），如果一个物体的中心点落入到一个grid cell中，那么该grid cell就要负责预测该物体。

（2）每个grid cell只预测一个目标，会生成B个预测框（bounding box），每个预测框包含一组(x, y, w, h, c)参数。

（3）除此之外，每个bounding box还要预测C个类别分数。

x, y：bounding box的中心坐标相较于该bounding box归属的grid cell左上角的偏移量，在0-1之间。

w, h：bounding box的宽和高，也归一化到了0-1之间，表示相较于原始图像（448×448）的宽和高的比例。

c：置信度(confidence)

$confidence=Pr(Object)\times IOU_{pred}^{truth}$

grid cell中有目标时：Pr(Object)=1， $confidence=IOU_{pred}^{truth}$ ；

grid cell中没有目标时：Pr(Object)=0， $confidence=0$ 。

类别分数：属于该类别的概率（0-1之间），条件概率与置信度的乘积。

$Pr(Class_{i}|Object)*Pr(Object)*IoU_{pred}^{truth}=Pr(Class_{i})\times IoU_{pred}^{truth}$

在PASCAL VOC数据集上，S=7，B=2，C=20，因此网络的输出为S × S × (5×B+C) → 7 × 7 × (2×5+20)。

4、网络结构

YOLO网络借鉴了GoogLeNet，输入图像尺寸为448×448，经过24个卷积层，2个全连接层，最后reshape操作，输出特征图大小为7×7×30。

5、损失函数

localization loss -> 坐标损失
confidence loss -> 置信度损失
classification loss -> 分类损失

（1）坐标损失

对宽和高加根号能够使得同样的IoU误差对大目标与小目标的惩罚值不同：

（2）置信度损失

正样本损失：第i个grid cell中存在目标的情况， $\hat{c_{i}}=1$

负样本损失：第i个grid cell中不存在目标的情况， $\hat{c_{i}}=0$

（3）类别损失

6、局限性

1、YOLO对相互靠近的物体，以及群体小目标的检测效果不好，这是因为一个网格只预测了2个框，并且都只属于同一类。

2、由于损失函数的问题，定位误差是影响检测效果的主要原因，尤其是大小物体的处理上，还有待加强。（因为对于小的bounding boxes，small error影响更大）

3、当目标出现新的尺寸或比例时，预测效果较差（直接预测坐标信息，而不是回归参数，泛化能力差）。

参考：

【YOLO系列】YOLOv1论文超详细解读（翻译＋学习笔记）_yolo论文-CSDN博客

YOLO系列算法精讲：从yolov1至yolov8的进阶之路（2万字超全整理）-CSDN博客

爱吃兔子的胡萝卜RR

关注

12
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
YOLOv1论文阅读笔记

YOLO网络借鉴了GoogLeNet，输入图像尺寸为448×448，经过24个卷积层，2个全连接层，最后reshape操作，输出特征图大小为7×7×30。在PASCAL VOC数据集上，S=7，B=2，C=20，因此网络的输出为S × S × (5×B+C) → 7 × 7 × (2×5+20)。w, h：bounding box的宽和高，也归一化到了0-1之间，表示相较于原始图像（448×448）的宽和高的比例。（1）将输入图像的大小调整为448×448，分割得到7×7大小的网格；
复制链接

扫一扫

爱吃兔子的胡萝卜RR CSDN认证博客专家 CSDN认证企业博客

码龄4年

20: 原创

29万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

378: 积分

202: 粉丝

165: 获赞

4: 评论

242: 收藏

私信

关注

热门文章

最新评论

Vision Transformer (VIT) 笔记
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
EDSR论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
SRCNN论文学习笔记
weixin_52613580: SRCNN第二层卷积核不是1*1的吗
ESPCN论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。
SR综述论文阅读的一点点笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。