YOLOv1——YOLOv3的一些理解和总结

隋边边

于 2021-11-11 19:58:16 发布

阅读量2.7k

点赞数

分类专栏：卷积神经网络文章标签：目标检测深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Setul/article/details/121274696

版权

卷积神经网络专栏收录该内容

6 篇文章

订阅专栏

本文概述了YOLO目标检测算法的三个主要版本YOLOv1、YOLOv2和YOLOv3，重点介绍了它们的主要改进，如YOLOv2的anchorbox机制和YOLOv3的多尺度预测。通过网络结构和输出张量，了解这些版本在解决物体检测问题上的核心变化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

每一代YOLO中最亮的亮点，旨在能迅速了解YOLO的关键特性。
1.1 YOLOv1

YOLOv1最值得说的当然是YOLO网络提出本身，使用回归的方法端到端解决了目标检测问题。

一个值得一提的细节就是，YOLOv1采用了将一副图片划分为多个grid cell的方法，每个grid cell仅预测出两个框，最终的输出张亮大小为：S x S x (B x 5 + C)，其中S是grid cell在某一维的数目，B是每个grid cell预测出的框的数目，5代表了框的中心x,y坐标和框的宽w、高h，以及框的IOU值，C代表了每个物体类别的概率。典型输出张量大小是7 x 7 x 30。

最后给出YOLOv1中使用的骨干网络架构。

1.2 YOLOv2
YOLOv2对v1做了很多改进，最瞩目的就是引入了anchor box的机制代替了v1版本中的bounding box。

通过对数据集中的物体形状进行聚类，获取到几种不同高矮胖瘦的anchor box。v2中可以输出的框的数目明显增多，有效解决了v1版本中最让人诟病的小分辨物体检测能力不够的问题。典型输出如下图所示为13 x 13 x 5 x 25，其中13是grid cell数目，5是每个cell的anchor box数目，25代表了框的x,y,w,h,c 和20个类别的概率。

同样地，把网络结构放在下面，作者采用了自创的Darknet网络架构。

1.3 YOLOv3
大名鼎鼎的YOLOv3，反而是最容易理解的。因为其主要是对网络架构进行了改进，其一是采用了Darknet53的网络结构，其次是增加了多个特征维度的输出，分别预测不同尺寸的物体。
其典型输出中13 x 13 x 255 = 13 x 13 x (3 x (5 + 80))，13代表grid cell数目，3代表anchor box的数目，5代表框的x,y,h,w,c，80代表类别的数目，由于下采样32倍，倍数最高，因此用来预测大物体，所分配的3个anchor box也是最大的。
26 x 26 x 255同理，下采样16倍，用来预测中等大小的物体；52 x 52 x 255则是下采样8倍，用来预测小物体。
给出一个很好的YOLOv3基于TF2.x的代码实现。
https://github.com/zzh8829/yolov3-tf2

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。