目标检测 YOLOv5根据配置改变网络的深度和宽度

最新推荐文章于 2025-02-10 11:04:44 发布

二分掌柜的

最新推荐文章于 2025-02-10 11:04:44 发布

阅读量1.2w

点赞数 15

分类专栏： YOLOv5 文章标签： onnx ncnn yolo pytorch yolov5

本文链接：https://blog.csdn.net/flyfish1986/article/details/116666103

版权

YOLOv5 专栏收录该内容

98 篇文章

订阅专栏

目标检测 YOLOv5根据配置改变网络的深度和宽度

flyfish

深度可以理解为网络的层数
宽度可以理解为网络层输出通道的大小

以配置文件 yolov5s.yaml 为例

# parameters
nc: 80  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple

# YOLOv5 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Focus, [64, 3]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, BottleneckCSP, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 9, BottleneckCSP, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, BottleneckCSP, [512]],
   [-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
   [-1, 1, SPP, [1024, [5, 9, 13]]],
  ]

这是两个缩放系数
depth_multiple 网络深度
width_multiple 网络宽度

计算过程在yolo.py中

def parse_model(d, ch):  # model_dict, input_channels(3)
    logger.info('\n%3s%18s%3s%10s  %-40s%-30s' % ('', 'from', 'n', 'params', 'module', 'arguments'))
    anchors, nc, gd, gw = d['anchors'], d['nc'], d['depth_multiple'], d['width_multiple']

depth_multiple赋值给gd
width_multiple赋值给gw

网络深度（网络层数）

n = max(round(n * gd), 1) if n > 1 else n  # depth gain

depth_multiple 起作用的部分，红色标出gd
在这里插入图片描述

网络宽度（网络输出通道）

c2 = make_divisible(c2 * gw, 8)

width_multiple起作用的部分，红色标出gw
在这里插入图片描述
这个函数也曾在mobilenet中出现过
关于为什么需要能够被8整除这里有一段描述原因
《Universally Slimmable Networks and Improved Training Techniques》
泛化可精简网络及其改进的训练技术

这里面这样说

 In practice, with d = 8 the US-Nets already provide enough adjustable widths. 
 Also in many hardware systems,matrix multiplication with size dividable by d = 8, 16, ..., 
 may be as fast as a smaller size due to alignment of processing unit (e.g., warp size in GPU is 32).

在实践中，当d=8时，US-Nets已经提供了足够的可调宽度。此外，在许多硬件系统中，由于处理单元的对齐，大小可被d=8、16…整除的矩阵乘法可以与较小的大小一样快。

Conv2d(8, 16, kernel_size=(3, 3), stride=(2, 2)在图中的表示
在这里插入图片描述

(1): Conv(
  (conv): Conv2d(8, 16, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
  (bn): BatchNorm2d(16, eps=0.001, momentum=0.03, affine=True, track_running_stats=True)
  (act): SiLU()