yolov5 解读

qq_478377515

已于 2022-08-17 03:05:15 修改

阅读量829

点赞数

分类专栏：日paper阅读和实践技巧分析-计算机视觉文章标签：深度学习人工智能

于 2022-08-15 23:17:54 首次发布

本文链接：https://blog.csdn.net/qq_33031419/article/details/126356330

版权

参考：

YOLOv5从入门到部署之 #系列

https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzU4MzQ4NTk5NQ==&action=getalbum&album_id=1493805634201370626&subscene=159&subscene=178&scenenote=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU4MzQ4NTk5NQ%3D%3D%26mid%3D2247495297%26idx%3D1%26sn%3D32f4e5cc8ea5a6d509651499ff091f7f%26chksm%3Dfdaaf1c5cadd78d3ffe9890525ac4c60fd6143841109425f6d284caca92138f23f3ee4dfe7e8%26scene%3D178%26cur_album_id%3D1493805634201370626%23rd&nolastread=1#wechat_redirect

yolov5的yaml文件解析 - 走看看

yolov5s-backbone部分_取个名字真难呐的博客-CSDN博客_backbone部分

yolov5s.yaml中各参数作用意义及使用netron工具来可视化yolov5s的结构_m0_67401746的博客-CSDN博客_yolov5s

1.Yolov5s.yaml

(1) depth_multiple，width_multiple

depth_multiple：模型深度控制模块的数量，当模块的数量number不为1时，

模块的数量 = number * depth。

width_multiple：模型的宽度控制卷积核的数量，卷积核的数量 = 数量 * width

depth_multiple表示channel的缩放系数，就是将配置里面的backbone和head部分有关通道的设置，全部乘以该系数即可；

而width_multiple表示BottleneckCSP模块的层缩放系数，将所有的BottleneckCSP模块的number系数乘上该参数就可以最终的层个数；

可以发现通过这两个参数就可以实现不同大小不同复杂度的模型设计，因此yolov5比yolov4更加灵活；
————————————————
原文链接：https://blog.csdn.net/m0_67401746/article/details/125346070

. depth_multiple：控制模型的深度。

. width_multiple：控制卷积核的个数。

depth_multiple 是用在backbone中的number≠1的情况下， 即在Bottleneck层使用，控制模型的深度，yolov5s中设置为0.33，假设yolov5l中有三个Bottleneck，那yolov5s中就只有一个Bottleneck。
因为一般number=1表示的是功能背景的层，比如说下采样Conv、Focus、SPP（空间金字塔池化）。
——————————————————————————————————————
width_multiple 主要是用于设置arguments，例如yolov5s设置为0.5，Focus就变成[32, 3]，Conv就变成[64, 3, 2]。
以此类推，卷积核的个数都变成了设置的一半。

yolov5提供了s、m、l、x四种，所有的yaml文件都设置差不多，只有上面2和3的设置不同，作者团队很厉害，只需要修改这两个参数就可以调整模型的网络结构。

可以发现通过这两个参数就可以实现不同大小不同复杂度的模型设计，因此yolov5比yolov4更加灵活；

更加详细的 depth_multiple、width_multiple分析：

参考： 深入浅出Yolo系列之Yolov5核心基础知识完整讲解 - 知乎

四种结构的yaml文件中，下方的网络架构代码都是一样的。

为了便于讲解，大白将其中的Backbone部分提取出来，讲解如何控制网络的宽度和深度，yaml文件中的Head部分也是同样的原理。

在对网络结构进行解析时，yolo.py中下方的这一行代码将四种结构的depth_multiple，width_multiple提取出，赋值给gd，gw。后面主要对这gd，gw这两个参数进行讲解。

下面再细致的剖析下，看是如何控制每种结构，深度和宽度的。

2.3.3 Yolov5四种网络的深度

（1）不同网络的深度

在上图中，大白画了两种CSP结构，CSP1和CSP2，其中CSP1结构主要应用于Backbone中，CSP2结构主要应用于Neck中。

需要注意的是，四种网络结构中每个CSP结构的深度都是不同的。

a.以yolov5s为例，第一个CSP1中，使用了1个残差组件，因此是CSP1_1。而在Yolov5m中，则增加了网络的深度，在第一个CSP1中，使用了2个残差组件，因此是CSP1_2。

而Yolov5l中，同样的位置，则使用了3个残差组件，Yolov5x中，使用了4个残差组件。

其余的第二个CSP1和第三个CSP1也是同样的原理。

b.在第二种CSP2结构中也是同样的方式，以第一个CSP2结构为例，Yolov5s组件中使用了2×X=2×1=2个卷积，因为Ｘ=1，所以使用了1组卷积，因此是CSP2_1。

而Yolov5m中使用了2组，Yolov5l中使用了3组，Yolov5x中使用了4组。

其他的四个CSP2结构，也是同理。

Yolov5中，网络的不断加深，也在不断增加网络特征提取和特征融合的能力。

（2）控制深度的代码

控制四种网络结构的核心代码是yolo.py中下面的代码，存在两个变量，n和gd。

我们再将n和gd带入计算，看每种网络的变化结果。

（3）验证控制深度的有效性

我们选择最小的yolov5s.yaml和中间的yolov5l.yaml两个网络结构，将gd(depth_multiple)系数带入，看是否正确。

a. yolov5s.yaml

其中depth_multiple=0.33，即gd=0.33，而n则由上面红色框中的信息获得。

以上面网络框图中的第一个CSP1为例，即上面的第一个红色框。n等于第二个数值3。

而gd=0.33，带入（2）中的计算代码，结果n=1。因此第一个CSP1结构内只有1个残差组件，即CSP1_1。

第二个CSP1结构中，n等于第二个数值9，而gd=0.33，带入（2）中计算，结果n=3，因此第二个CSP1结构中有3个残差组件，即CSP1_3。

第三个CSP1结构也是同理，这里不多说。

b. yolov5l.xml

其中depth_multiple=1，即gd=1

和上面的计算方式相同，第一个CSP1结构中，n=3，带入代码中，结果n=3，因此为CSP1_3。

下面第二个CSP1和第三个CSP1结构都是同样的原理。

2.3.4 Yolov5四种网络的宽度

（1）不同网络的宽度:

如上图表格中所示，四种yolov5结构在不同阶段的卷积核的数量都是不一样的，因此也直接影响卷积后特征图的第三维度，即厚度，大白这里表示为网络的宽度。

a.以Yolov5s结构为例，第一个Focus结构中，最后卷积操作时，卷积核的数量是32个，因此经过Focus结构，特征图的大小变成304*304*32。

而yolov5m的Focus结构中的卷积操作使用了48个卷积核，因此Focus结构后的特征图变成304*304*48。yolov5l，yolov5x也是同样的原理。

b. 第二个卷积操作时，yolov5s使用了64个卷积核，因此得到的特征图是152*152*64。而yolov5m使用96个特征图，因此得到的特征图是152*152*96。yolov5l，yolov5x也是同理。

c. 后面三个卷积下采样操作也是同样的原理，这样大白不过多讲解。

四种不同结构的卷积核的数量不同，这也直接影响网络中，比如CSP1，CSP2等结构，以及各个普通卷积，卷积操作时的卷积核数量也同步在调整，影响整体网络的计算量。

大家最好可以将结构图和前面第一部分四个网络的特征图链接，对应查看，思路会更加清晰。

当然卷积核的数量越多，特征图的厚度，即宽度越宽，网络提取特征的学习能力也越强。

（2）控制宽度的代码

在yolov5的代码中，控制宽度的核心代码是yolo.py文件里面的这一行：

它所调用的子函数make_divisible的功能是：

（3）验证控制宽度的有效性

我们还是选择最小的yolov5s和中间的yolov5l两个网络结构，将width_multiple系数带入，看是否正确。

a. yolov5s.yaml

其中width_multiple=0.5，即gw=0.5。

以第一个卷积下采样为例，即Focus结构中下面的卷积操作。

按照上面Backbone的信息，我们知道Focus中，标准的c2=64，而gw=0.5，代入（2）中的计算公式，最后的结果=32。即Yolov5s的Focus结构中，卷积下采样操作的卷积核数量为32个。

再计算后面的第二个卷积下采样操作，标准c2的值=128，gw=0.5，代入（2）中公式，最后的结果=64，也是正确的。

b. yolov5l.yaml

其中width_multiple=1，即gw=1，而标准的c2=64，代入上面（2）的计算公式中，可以得到Yolov5l的Focus结构中，卷积下采样操作的卷积核的数量为64个，而第二个卷积下采样的卷积核数量是128个。

另外的三个卷积下采样操作，以及yolov5m，yolov5x结构也是同样的计算方式，大白这里不过多解释。

(2) anchors

anchors:    - [10,13, 16,30, 33,23]  # P3/8  检测小目标  10，13是一组尺寸，一共三组    - [30,61, 62,45, 59,119]  # P4/16       - [116,90, 156,198, 373,326]  # P5/32  检测大目标

yolov5已经在yaml预设好了输入图像为640*640分辨率对应的anchor尺寸，yolov5的anchor也是在大特征图上检测小目标，在小特征图上检测大目标。三个特征图，每个特征图上的格子有三种尺寸的anchor。

YOLOv2使用了anchor，但并非手动选取，而是通过聚类的方式学习得到。

【论文笔记】：YOLO v2_Activewaste的博客-CSDN博客_passthrough层

不同于Yolov4的是，Yolov5在选定锚框比时采用了自适应锚框计算，此前的Yolov3和Yolov4都是先采用聚类算法在数据集中预先训练，选好9个anchor的宽高，但Yolov5中将此功能嵌入到代码中，每次训练时，自适应的计算不同训练集中的最佳锚框值。在train.py中的参数说明中，“noautoanchor”参数便是用来控制该操作，设置为ture则启用自适应anchor机制，设置为false则采用给定的anchor。

自适应锚框计算：

在Yolov3、Yolov4中，训练不同的数据集时，计算初始锚框的值是通过单独的程序运行的。

但Yolov5中将此功能嵌入到代码中（可关闭），每次训练时，自适应的计算不同训练集中的最佳锚框值。

anchors是anchor尺寸设置。也可以直接写个3，yolov5就会自动按照训练集聚类anchor；如下。

# Parameters
nc: 80  # number of classes
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
anchors: 3  # AutoAnchor evolves 3 anchors per P output layer

(3) Backbone

YOLOv5 backbone  backbone:    # from   第一列 输入来自哪一层  -1

最低0.47元/天解锁文章

qq_478377515

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
yolov5 解读

yolov5解析
复制链接

扫一扫

专栏目录