Yolov5算法解读

最新推荐文章于 2025-03-30 22:40:55 发布

elkluh

最新推荐文章于 2025-03-30 22:40:55 发布

阅读量4.5w

点赞数 110

分类专栏：计算机视觉文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_39696563/article/details/126377377

版权

yolov5于2020年由glenn-jocher首次提出，直至今日yolov5仍然在不断进行升级迭代。

Yolov5有YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个版本。文件中，这几个模型的结构基本一样，不同的是depth_multiple模型深度和width_multiple模型宽度这两个参数。

yolov5主要分为输入端，backbone，Neck，和head(prediction)。backbone是New CSP-Darknet53。Neck层为SPFF和New CSP-PAN。Head层为Yolov3 head。 yolov5 6.0版本的主要架构如下图所示：

从整体结构图中，我们可以看到Backbone，neck和head由不同的blocks构成，下面是对于这三个部分，逐一介绍各个blocks。

1. 输入端：

YOLOv5在输入端采用了Mosaic数据增强，参考了CutMix数据增强的方法，Mosaic数据增强由原来的两张图像提高到四张图像进行拼接，并对图像进行随机缩放，随机裁剪和随机排列。使用数据增强可以改善数据集中，小、中、大目标数据不均衡的问题。

Mosaic数据增强的主要步骤为：1. Mosaic 2.Copy paste 3.Random affine（Scale, Translation and Shear) 4.Mixup 5.Albumentations 6. Augment HSV(Hue, Saturation, Value) 7. Random horizontal flip.

采用Mosaic数据增强的方式有几个优点：1.丰富数据集：随机使用4张图像，随机缩放后随机拼接，增加很多小目标，大大丰富了数据集，提高了网络的鲁棒性。2.减少GPU占用：随机拼接的方式让一张图像可以计算四张图像的数据，减少每个batch的数量，即使只有一个GPU，也能得到较好的结果。3.同时通过对识别物体的裁剪，使模型根据局部特征识别物体，有助于被遮挡物体的检测，从而提升了模型的检测能力。

2.backbone

在Backbone中，有conv，C3，SPFF是我们需要阐明的。

2.1.Conv模块

Conv卷积层由卷积，batch normalization和SiLu激活层组成。batch normalization具有防止过拟合，加速收敛的作用。SiLu激活函数是Sigmoid 加权线性组合，SiLU 函数也称为 swish 函数。
公式：silu(x)=x∗σ(x),where σ(x) is the logistic sigmoid. Silu函数处处可导，且连续光滑。Silu并非一个单调的函数，最大的缺点是计算量大。

2.2 C3模块

C3其结构作用基本相同均为CSP架构，只是在修正单元的选择上有所不同，其包含了3个标准卷积层，数量由配置文件yaml的n和depth_multiple参数乘积决定。该模块是对残差特征进行学习的主要模块,其结构分为两支,一支使用了上述指定多个Bottleneck堆叠，另一支仅经过一个基本卷积模块，最后将两支进行concat操作。
这个模块相对于之前版本BottleneckCSP模块不同的