YOLOv7-tiny 模型详解

373023820

已于 2023-10-18 16:58:55 修改

阅读量3.7k

点赞数 8

文章标签： YOLO

于 2023-09-25 17:37:39 首次发布

本文链接：https://blog.csdn.net/qq_53821866/article/details/133277320

版权

# parameters
nc: 80  # number of classes
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple

"nc: 80" 表示类别数量（number of classes），这里设定为80个类别。这通常用于目标检测任务中，表示模型需要检测的不同物体类别的数量。
"depth_multiple: 1.0" 表示模型深度的倍数（depth multiple）为1.0。这个参数用于调整模型的深度，可以控制模型的复杂程度。
"width_multiple: 1.0" 表示层的通道数（channel）的倍数为1.0。这个参数可以调整模型的宽度，决定每个层的输出通道数量。

通过调整这些参数，可以对模型的结构和参数进行灵活的控制，以满足不同的需求和条件。例如，增加类别数量可以使模型具有更好的分类能力，调整深度和宽度可以平衡模型的性能和计算资源之间的权衡。

# anchors
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

这些是一些检测框的高宽值

# yolov7-tiny backbone
backbone:
  # [from, number, module, args] c2, k=1, s=1, p=None, g=1, act=True
  [[-1, 1, Conv, [32, 3, 2, None, 1, nn.LeakyReLU(0.1)]],  # 0-P1/2  
  
   [-1, 1, Conv, [64, 3, 2, None, 1, nn.LeakyReLU(0.1)]],  # 1-P2/4    
   
   [-1, 1, Conv, [32, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-2, 1, Conv, [32, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [32, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [32, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, -2, -3, -4], 1, Concat, [1]],
   [-1, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]],  # 7
   
   [-1, 1, MP, []],  # 8-P3/8
   [-1, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-2, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [64, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [64, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, -2, -3, -4], 1, Concat, [1]],
   [-1, 1, Conv, [128, 1, 1, None, 1, nn.LeakyReLU(0.1)]],  # 14
   
   [-1, 1, MP, []],  # 15-P4/16
   [-1, 1, Conv, [128, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-2, 1, Conv, [128, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [128, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [128, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, -2, -3, -4], 1, Concat, [1]],
   [-1, 1, Conv, [256, 1, 1, None, 1, nn.LeakyReLU(0.1)]],  # 21
   
   [-1, 1, MP, []],  # 22-P5/32
   [-1, 1, Conv, [256, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-2, 1, Conv, [256, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [256, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [256, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, -2, -3, -4], 1, Concat, [1]],
   [-1, 1, Conv, [512, 1, 1, None, 1, nn.LeakyReLU(0.1)]],  # 28
  ]

解释： "[-1, 1, Conv, [32, 3, 2, None, 1, nn.LeakyReLU(0.1)]]" 表示这一层从上一层的特征图获取输入，然后使用一个卷积操作（Conv）进行处理。 - [32, 3, 2, None, 1, nn.LeakyReLU(0.1)] 是卷积操作的参数，具体含义如下： - 32 表示输出通道数（output channels），即输出特征图的深度。 - 3 表示卷积核的大小（kernel size），这里是一个 3x3 的卷积核。 - 2 表示卷积操作的步幅（stride），这里的步幅为 2，表示在水平和垂直方向上每次移动 2 个像素。 - None 表示没有使用填充（padding），默认情况下卷积操作会使得特征图的尺寸减小。 - 1 表示组（group）的个数，默认为 1 表示没有分组卷积。 - nn.LeakyReLU(0.1) 表示使用 LeakyReLU 作为激活函数，其中 0.1 是负斜率（negative slope）参数。

这段代码是 YOLOv7-tiny 模型的主干网络（backbone）部分的定义。

主干网络是深度学习模型的基础部分，负责从输入图像中提取特征以用于后续任务，如目标检测。

在这段代码中，backbone 由一系列的卷积层（Conv）和最大池化层（MP）组成。每个卷积层都有一些参数，例如卷积核的大小（kernel size）、步幅（stride）、填充（padding）、组（group）和激活函数（activation function）等。

这段代码中的注释提供了每个层的功能和相对于输入特征图的大小。例如，“0-P1/2”表示该层生成了特征图 P1，其相对于输入特征图大小的缩放比例为 1/2。

此外，还有一些拼接层（Concat），用于将不同层的特征图拼接在一起。

整个主干网络共有 29 个层次，从输入图像逐渐提取越来越高级的特征。这些特征将用于接下来的检测任务。

# yolov7-tiny head
head:
  [[-1, 1, Conv, [256, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-2, 1, Conv, [256, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, SP, [5]],
   [-2, 1, SP, [9]],
   [-3, 1, SP, [13]],
   [[-1, -2, -3, -4], 1, Concat, [1]],
   [-1, 1, Conv, [256, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, -7], 1, Concat, [1]],
   [-1, 1, Conv, [256, 1, 1, None, 1, nn.LeakyReLU(0.1)]],  # 37
  
   [-1, 1, Conv, [128, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [21, 1, Conv, [128, 1, 1, None, 1, nn.LeakyReLU(0.1)]], # route backbone P4
   [[-1, -2], 1, Concat, [1]],
   
   [-1, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-2, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [64, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [64, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, -2, -3, -4], 1, Concat, [1]],
   [-1, 1, Conv, [128, 1, 1, None, 1, nn.LeakyReLU(0.1)]],  # 47
  
   [-1, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [14, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]], # route backbone P3
   [[-1, -2], 1, Concat, [1]],
   
   [-1, 1, Conv, [32, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-2, 1, Conv, [32, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [32, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [32, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, -2, -3, -4], 1, Concat, [1]],
   [-1, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]],  # 57
   
   [-1, 1, Conv, [128, 3, 2, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, 47], 1, Concat, [1]],
   
   [-1, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-2, 1, Conv, [64, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [64, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [64, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, -2, -3, -4], 1, Concat, [1]],
   [-1, 1, Conv, [128, 1, 1, None, 1, nn.LeakyReLU(0.1)]],  # 65
   
   [-1, 1, Conv, [256, 3, 2, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, 37], 1, Concat, [1]],
   
   [-1, 1, Conv, [128, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-2, 1, Conv, [128, 1, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [128, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [-1, 1, Conv, [128, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [[-1, -2, -3, -4], 1, Concat, [1]],
   [-1, 1, Conv, [256, 1, 1, None, 1, nn.LeakyReLU(0.1)]],  # 73
      
   [57, 1, Conv, [128, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [65, 1, Conv, [256, 3, 1, None, 1, nn.LeakyReLU(0.1)]],
   [73, 1, Conv, [512, 3, 1, None, 1, nn.LeakyReLU(0.1)]],

   [[74,75,76], 1, IDetect, [nc, anchors]],   # Detect(P3, P4, P5)
  ]

头部网络的作用是对主干网络提取的特征进行进一步处理，以获得最终的检测结果。

在这段代码中，头部网络由一系列的卷积层（Conv）、空间金字塔层（SP）、上采样层（nn.Upsample）等组成。

每个层次都有许多参数，例如卷积核的大小（kernel size）、步幅（stride）、填充（padding）、激活函数（activation function）等。并且注释提供了相对于主干网络特征图的缩放比例。

除了这些常规操作之外，还可以看到拼接层（Concat）和检测层（IDetect）。

其中，拼接层将不同层次的特征图进行拼接，以合并信息。

检测层是用于检测目标的最终输出层。这里将 P3、P4 和 P5 特征图输入到 IDetect 层以检测目标，并提供了类别数量（nc）和锚点信息（anchors）。

373023820

关注

8
点赞
踩
40

收藏

觉得还不错? 一键收藏
1
评论
YOLOv7-tiny 模型详解

每个卷积层都有一些参数，例如卷积核的大小（kernel size）、步幅（stride）、填充（padding）、组（group）和激活函数（activation function）等。每个层次都有许多参数，例如卷积核的大小（kernel size）、步幅（stride）、填充（padding）、激活函数（activation function）等。检测层是用于检测目标的最终输出层。在这段代码中，头部网络由一系列的卷积层（Conv）、空间金字塔层（SP）、上采样层（nn.Upsample）等组成。
复制链接

扫一扫