yolo学习笔记

阿烦阿烦

于 2024-08-13 21:26:19 发布

阅读量212

点赞数 2

文章标签： YOLO 学习笔记

本文链接：https://blog.csdn.net/LSY0825/article/details/141166511

版权

1 模型结构

# YOLOv5 🚀 by Ultralytics, AGPL-3.0 license

# Parameters
nc: 20 # number of classes
depth_multiple: 0.33 # model depth multiple
width_multiple: 0.25 # layer channel multiple
anchors:
  - [10, 13, 16, 30, 33, 23] # P3/8
  - [30, 61, 62, 45, 59, 119] # P4/16
  - [116, 90, 156, 198, 373, 326] # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [
    [-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2
    [-1, 1, Conv, [128, 3, 2]], # 1-P2/4
    [-1, 3, C3, [128]],
    [-1, 1, Conv, [256, 3, 2]], # 3-P3/8
    [-1, 6, C3, [256]],
    [-1, 1, Conv, [512, 3, 2]], # 5-P4/16
    [-1, 9, C3, [512]],
    [-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
    [-1, 3, C3, [1024]],
    [-1, 1, SPPF, [1024, 5]], # 9
  ]

# YOLOv5 v6.0 head
head: [
    [-1, 1, Conv, [512, 1, 1]],
    [-1, 1, nn.Upsample, [None, 2, "nearest"]],
    [[-1, 6], 1, Concat, [1]], # cat backbone P4
    [-1, 3, C3, [512, False]], # 13

    [-1, 1, Conv, [256, 1, 1]],
    [-1, 1, nn.Upsample, [None, 2, "nearest"]],
    [[-1, 4], 1, Concat, [1]], # cat backbone P3
    [-1, 3, C3, [256, False]], # 17 (P3/8-small)

    [-1, 1, Conv, [256, 3, 2]],
    [[-1, 14], 1, Concat, [1]], # cat head P4
    [-1, 3, C3, [512, False]], # 20 (P4/16-medium)

    [-1, 1, Conv, [512, 3, 2]],
    [[-1, 10], 1, Concat, [1]], # cat head P5
    [-1, 3, C3, [1024, False]], # 23 (P5/32-large)

    [[17, 20, 23], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)
  ]

参数含义

from：输入索引。-1代表上一层的输出作为本层输入，[-1, 6]代表上一层和第6层的输出共同作为本层输入
number：操作的重复次数
module：模块类型
args：模型参数。如第0层的[64, 6, 2, 2]代表输出通道64，卷积核6*6，步幅2，填充2；第9层的[1024, 5]代表输出通道1024，最大池化核5*5；第13层的[512, False]代表输出通道512，不使用残差连接
0-P1/2：0代表层索引；P1代表第一张特征图；2代表下采样倍数

2 骨干网络

2.1 C3（CSP Bottleneck with 3 convolutions）

CSP（Cross Stage Partial）：一种改进的网络结构，用于增强信息流通、减轻信息冗余、并减少计算量。将特征图划为两部分，一部分直接通过，另一部分经过一系列卷积操作后再与之前的部分合并。

2.2 Bottleneck

常见结构，将高维特征压缩到低维，再恢复到高维。目的是在保持模型表示能力的同时减少计算成本、参数数量。

结构

1*1卷积层（降低维度）：如果输入的通道数是256，可以降维成64
3*3卷积层（提取特征）：对降维后的特征图进行特征提取。由于通道数变少，计算代价也变少
1*1卷积层（恢复维度）：保证输出的特征维度与输入相同
残差连接（residual connection）：输入的特征图与讲过上述三层卷积操作的输出特征图直接相加。这种跳跃连接的方式使得模型能保留原始信息，减轻梯度消失

2.3 特征图说明

C3模块的输入、输出特征图尺寸不变，因为不标记为新的特征图

3 Detect模块

[[17, 20, 23], 1, Detect, [nc, anchors]]

从17、20、23层提取特征图（P3/P4/P5）作为模块输入

阿烦阿烦

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
yolo学习笔记

CSP（Cross Stage Partial）：一种改进的网络结构，用于增强信息流通、减轻信息冗余、并减少计算量。将特征图划为两部分，一部分直接通过，另一部分经过一系列卷积操作后再与之前的部分合并。常见结构，将高维特征压缩到低维，再恢复到高维。目的是在保持模型表示能力的同时减少计算成本、参数数量。从17、20、23层提取特征图（P3/P4/P5）作为模块输入。C3模块的输入、输出特征图尺寸不变，因为不标记为新的特征图。
复制链接

扫一扫