Yolo v1 v2 v3的发展与细节

最新推荐文章于 2024-06-10 13:00:07 发布

AliceWanderAI

最新推荐文章于 2024-06-10 13:00:07 发布

阅读量910

点赞数 2

分类专栏：机器学习 deep-learning 图像处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NXHYD/article/details/105640193

版权

本文详细介绍了YOLO（You Only Look Once）目标检测模型的发展历程，从v1到v3的改进点，包括BN层、高分辨率预训练、Anchor Box、K-means聚类、多尺度训练等。YOLOv1以其快速但牺牲一定精度为特点，v2引入了BN、Anchor Box等提升精度，v3则采用了Darknet-53网络和多尺度预测，进一步提高检测效果。

摘要由CSDN通过智能技术生成

Yolo v1+2+3都是目标检测模型。

目标检测模型；
Yolo v1
Yolo v2
Yolo v3
总结：发展路线和区别；

一、目标检测模型

目标检测可分为两个步骤：

Step1: 检测目标位置（生成矩形框）

Step2: 对目标物体进行分类

物体检测主流算法主要分为one-stage和two-stage

One-stage：Yolo系列(v1->v2->v3)

Two-stage: Fast RCNN系列（RCNN->Fast RCNN->Faster RCNN）

One-stage的步骤一和步骤二同时执行，输入图像只经过一个网络，输出结果包含位置信息和分类；(精度与速度之间均衡)

Two-stage的步骤一和步骤二分开进行，输入图像先经过候选框生成网络，再经过分类网络。精度更高，计算量更大。

1.YOLO很快，因为使用回归的方法，且不用复杂的框架；

2.YOLO基于整张图像进行预测，其他滑窗式的检测框架只能基于局部图像；

3.YOLO学到的图像特征更为通用。why？Q1

二、YOLOv1

Yolo1的网络结构

输入：448*448的图像

输出：7*7*30的张量（7*7是指图像分为了7*7个格子）

网络结构：（若干卷积+最大池化）+ 两层全卷积, 没有使用BN,用了一层dropout。最后一层的输出使用了线性激活函数，其余都用的leaky relu。

一般来说，分类网络最后的全连接层一般连接于一个一维向量，向量的不同位代表不同的分类。

这里的输出是7*7*30的张量，代表什么呢？Q2

A2：在yolo中，如果一个物体的中心点落在了这7*7的某个格子中，则这个格子负责检测这个物体。所以相当于有47个检测人员，每个人员负责检测自己格子内的东西。30对应的是一般情况下一维输出向量的长度。

30 = （4+1）*2+20；4：[x_offset, y_offset, w, h], 1: 被检测物体的置信度；2：一个格子共回归两个矩形框；20：预测20个类别。

需要注意的是：每个格子产生2个预测框，2是参数，可以调整。一旦设置为2，则每个方格只产生2个预测框，最后选置信度最大的那个框输出。也就是每个格子产生n个预测框，但只输出置信度最大的那个框。且每个方格只能预测一个物体。当格子数为7*7的时候&#

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。