YOLOv8第Y8周：yolov8.yaml文件解读

最新推荐文章于 2024-07-19 16:38:02 发布

千筱夜

最新推荐文章于 2024-07-19 16:38:02 发布

阅读量947

点赞数 20

文章标签： YOLO

本文链接：https://blog.csdn.net/geo436872/article/details/135858478

版权

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊 | 接辅导、项目定制
🚀 文章来源：K同学的学习圈子

👉 本周任务： ● 请根据YOLOv8n、YOLOv8s模型的结构输出，手写出YOLOv8l的模型输出

一、参数配置

# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024] # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPs
  s: [0.33, 0.50, 1024] # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPs
  m: [0.67, 0.75, 768] # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPs
  l: [1.00, 1.00, 512] # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
  x: [1.00, 1.25, 512] # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs

nc：表示v8模型可识别物体种类数。
scales：参数scale是指YOLOv8模型的复合缩放常数，用于根据不同的需求和硬件条件创建不同大小的模型。在YOLOv8模型中，scale值是由三个常数：
depth
width
max_channels
组成的列表(n、s、m、l和x)，它们可以分别控制网络的深度、宽度和最大的通道数。使用不同的缩放常数可以生成不同大小、精度、速度和存储需求的模型，以满足各种应用和设备的需求。
以下是YOLOv8的五种模型的详细参数：

参数	模型n	模型s	模型m	模型l	模型x
深度scaling factor	0.33	0.33	0.67	1.00	1.00
宽度scaling factor	0.25	0.50	0.75	1.00	1.25
最大通道数	1024	1024	768	512	512
模型总层数	225	225	295	365	365
模型总参数数(单位:个)	3,157,200	11,166,560	25,902,640	43,691,520	68,229,648
模型总梯度数(单位:个)	3,157,184	11,166,544	25,902,624	43,691,504	68,229,632
预测速度(单位: GFLOPs)	8.9	28.8	79.3	165.7	258.5

二、模型整体架构

这里借用K同学的一张架构图，方便理解：
在这里插入图片描述

1.Backbone模块：

backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]] # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]] # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, Conv, [512, 3, 2]] # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]] # 9

这个模块是YOLOv8的主干网络(backbone)，用于提取输入图像的特征以便后续的目标检测任务。YOLOv8的主干网络采用了一些标准的卷积神经网络模块，例如卷积层(Conv)、深度可分离卷积层(C2f)以及空间金字塔池化层(SPPF)。它们在不同层数级上增强了网络的表示能力和视野范围，使之更好地适应各种尺寸的输入图像。该模块的输入是一份图像，输出是多个不同层数级的特征图(feature maps)，它们将传递给输出头部(output heads)以产生物体检测的结果。

2.head模块：

head:
 1. [-1, 1, nn.Upsample, [None, 2, "nearest"]]
 2. [[-1, 6], 1, Concat, [1]] # cat backbone P4
 3. [-1, 3, C2f, [512]] # 12

 4. [-1, 1, nn.Upsample, [None, 2, "nearest"]]
 5. [[-1, 4], 1, Concat, [1]] # cat backbone P3
 6. [-1, 3, C2f, [256]] # 15 (P3/8-small)

 7. [-1, 1, Conv, [256, 3, 2]]
 8. [[-1, 12], 1, Concat, [1]] # cat head P4
 9. [-1, 3, C2f, [512]] # 18 (P4/16-medium)

 10. [-1, 1, Conv, [512, 3, 2]]
 11. [[-1, 9], 1, Concat, [1]] # cat head P5
 12. [-1, 3, C2f, [1024]] # 21 (P5/32-large)

 13. [[15, 18, 21], 1, Detect, [nc]] # Detect(P3, P4, P5)

这个模块是YOLOv8的输出头(head)，用于将主干网络(backbone)的特征图(feature maps)转化为目标检测的输出结果。该模块主要包括三个部分，即上采样(Upsample)、特征融合(Concat)和检测(Detect)层。其中，上采样层将不同层数级的特征图进行放大以便它们能够进行特征融合。特征融合层将不同层数级的特征图拼接起来，产生更加丰富和全面的特征表示，并使得检测器能够对不同大小、不同位置的物体进行检测。最后，检测层将特征图通过多个卷积层(Conv)和恰当的激活函数进行处理，以产生物体检测的结果，包括类别、置信度和边界框坐标等信息。在YOLOv8中，检测层称为Detect层，它接收来自不同层数级的特征图，使用卷积和全连接层对它们进行处理，最终输出目标检测的结果。

3.模型结构输出

yolov8n.yaml模型：

                   from  n    params  module                                       arguments                     
  0                  -1  1       464  ultralytics.nn.modules.conv.Conv             [3, 16, 3, 2]                 
  1                  -1  1      4672  ultralytics.nn.modules.conv.Conv             [16, 32, 3, 2]                
  2                  -1  1      7360  ultralytics.nn.modules.block.C2f             [32, 32, 1, True]             
  3                  -1  1     18560  ultralytics.nn.modules.conv.Conv             [32, 64, 3, 2]                
  4                  -1  2     49664  ultralytics.nn.modules.block.C2f             [64, 64, 2, True]             
  5                  -1  1     73984  ultralytics.nn.modules.conv.Conv             [64, 128, 3, 2]               
  6                  -1  2    197632  ultralytics.nn.modules.block.C2f             [128, 128, 2, True]           
  7                  -1  1    295424  ultralytics.nn.modules.conv.Conv             [128, 256, 3, 2]              
  8                  -1  1    460288  ultralytics.nn.modules.block.C2f             [256, 256, 1, True]           
  9                  -1  1    164608  ultralytics.nn.modules.block.SPPF            [256, 256, 5]                 
 10                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 11             [-1, 6]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 12                  -1  1    148224  ultralytics.nn.modules.block.C2f             [384, 128, 1]                 
 13                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 14             [-1, 4]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 15                  -1  1     37248  ultralytics.nn.modules.block.C2f             [192, 64, 1]                  
 16                  -1  1     36992  ultralytics.nn.modules.conv.Conv             [64, 64, 3, 2]                
 17            [-1, 12]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 18                  -1  1    123648  ultralytics.nn.modules.block.C2f             [192, 128, 1]                 
 19                  -1  1    147712  ultralytics.nn.modules.conv.Conv             [128, 128, 3, 2]              
 20             [-1, 9]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 21                  -1  1    493056  ultralytics.nn.modules.block.C2f             [384, 256, 1]                 
 22        [15, 18, 21]  1    752092  ultralytics.nn.modules.head.Detect           [4, [64, 128, 256]]           
YOLOv8n summary: 225 layers, 3011628 parameters, 3011612 gradients, 8.2 GFLOPs

yolov8s.yaml模型：

                   from  n    params  module                                       arguments                     
  0                  -1  1       928  ultralytics.nn.modules.conv.Conv             [3, 32, 3, 2]                 
  1                  -1  1     18560  ultralytics.nn.modules.conv.Conv             [32, 64, 3, 2]                
  2                  -1  1     29056  ultralytics.nn.modules.block.C2f             [64, 64, 1, True]             
  3                  -1  1     73984  ultralytics.nn.modules.conv.Conv             [64, 128, 3, 2]               
  4                  -1  2    197632  ultralytics.nn.modules.block.C2f             [128, 128, 2, True]           
  5                  -1  1    295424  ultralytics.nn.modules.conv.Conv             [128, 256, 3, 2]              
  6                  -1  2    788480  ultralytics.nn.modules.block.C2f             [256, 256, 2, True]           
  7                  -1  1   1180672  ultralytics.nn.modules.conv.Conv             [256, 512, 3, 2]              
  8                  -1  1   1838080  ultralytics.nn.modules.block.C2f             [512, 512, 1, True]           
  9                  -1  1    656896  ultralytics.nn.modules.block.SPPF            [512, 512, 5]                 
 10                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 11             [-1, 6]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 12                  -1  1    591360  ultralytics.nn.modules.block.C2f             [768, 256, 1]                 
 13                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 14             [-1, 4]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 15                  -1  1    148224  ultralytics.nn.modules.block.C2f             [384, 128, 1]                 
 16                  -1  1    147712  ultralytics.nn.modules.conv.Conv             [128, 128, 3, 2]              
 17            [-1, 12]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 18                  -1  1    493056  ultralytics.nn.modules.block.C2f             [384, 256, 1]                 
 19                  -1  1    590336  ultralytics.nn.modules.conv.Conv             [256, 256, 3, 2]              
 20             [-1, 9]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 21                  -1  1   1969152  ultralytics.nn.modules.block.C2f             [768, 512, 1]                 
 22        [15, 18, 21]  1   2117596  ultralytics.nn.modules.head.Detect           [4, [128, 256, 512]]          
YOLOv8s summary: 225 layers, 11137148 parameters, 11137132 gradients, 28.7 GFLOPs

yolov8l.yaml模型：

                   from  n    params  module                                       arguments                     
  0                  -1  1      1856  ultralytics.nn.modules.conv.Conv             [3, 64, 3, 2]                 
  1                  -1  1     73984  ultralytics.nn.modules.conv.Conv             [64, 128, 3, 2]               
  2                  -1  3    279808  ultralytics.nn.modules.block.C2f             [128, 128, 3, True]           
  3                  -1  1    295424  ultralytics.nn.modules.conv.Conv             [128, 256, 3, 2]              
  4                  -1  6   2101248  ultralytics.nn.modules.block.C2f             [256, 256, 6, True]           
  5                  -1  1   1180672  ultralytics.nn.modules.conv.Conv             [256, 512, 3, 2]              
  6                  -1  6   8396800  ultralytics.nn.modules.block.C2f             [512, 512, 6, True]           
  7                  -1  1   2360320  ultralytics.nn.modules.conv.Conv             [512, 512, 3, 2]              
  8                  -1  3   4461568  ultralytics.nn.modules.block.C2f             [512, 512, 3, True]           
  9                  -1  1    656896  ultralytics.nn.modules.block.SPPF            [512, 512, 5]                 
 10                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 11             [-1, 6]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 12                  -1  3   4723712  ultralytics.nn.modules.block.C2f             [1024, 512, 3]                
 13                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 14             [-1, 4]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 15                  -1  3   1247744  ultralytics.nn.modules.block.C2f             [768, 256, 3]                 
 16                  -1  1    590336  ultralytics.nn.modules.conv.Conv             [256, 256, 3, 2]              
 17            [-1, 12]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 18                  -1  3   4592640  ultralytics.nn.modules.block.C2f             [768, 512, 3]                 
 19                  -1  1   2360320  ultralytics.nn.modules.conv.Conv             [512, 512, 3, 2]              
 20             [-1, 9]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 21                  -1  3   4723712  ultralytics.nn.modules.block.C2f             [1024, 512, 3]                
 22        [15, 18, 21]  1   5585884  ultralytics.nn.modules.head.Detect           [4, [256, 512, 512]]          
YOLOv8l summary: 365 layers, 43632924 parameters, 43632908 gradients, 165.4 GFLOPs