yolo学习笔记

1 模型结构 

# YOLOv5 🚀 by Ultralytics, AGPL-3.0 license

# Parameters
nc: 20 # number of classes
depth_multiple: 0.33 # model depth multiple
width_multiple: 0.25 # layer channel multiple
anchors:
  - [10, 13, 16, 30, 33, 23] # P3/8
  - [30, 61, 62, 45, 59, 119] # P4/16
  - [116, 90, 156, 198, 373, 326] # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [
    [-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2
    [-1, 1, Conv, [128, 3, 2]], # 1-P2/4
    [-1, 3, C3, [128]],
    [-1, 1, Conv, [256, 3, 2]], # 3-P3/8
    [-1, 6, C3, [256]],
    [-1, 1, Conv, [512, 3, 2]], # 5-P4/16
    [-1, 9, C3, [512]],
    [-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
    [-1, 3, C3, [1024]],
    [-1, 1, SPPF, [1024, 5]], # 9
  ]

# YOLOv5 v6.0 head
head: [
    [-1, 1, Conv, [512, 1, 1]],
    [-1, 1, nn.Upsample, [None, 2, "nearest"]],
    [[-1, 6], 1, Concat, [1]], # cat backbone P4
    [-1, 3, C3, [512, False]], # 13

    [-1, 1, Conv, [256, 1, 1]],
    [-1, 1, nn.Upsample, [None, 2, "nearest"]],
    [[-1, 4], 1, Concat, [1]], # cat backbone P3
    [-1, 3, C3, [256, False]], # 17 (P3/8-small)

    [-1, 1, Conv, [256, 3, 2]],
    [[-1, 14], 1, Concat, [1]], # cat head P4
    [-1, 3, C3, [512, False]], # 20 (P4/16-medium)

    [-1, 1, Conv, [512, 3, 2]],
    [[-1, 10], 1, Concat, [1]], # cat head P5
    [-1, 3, C3, [1024, False]], # 23 (P5/32-large)

    [[17, 20, 23], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)
  ]

参数含义

  • from:输入索引。-1代表上一层的输出作为本层输入,[-1, 6]代表上一层和第6层的输出共同作为本层输入
  • number:操作的重复次数
  • module:模块类型
  • args:模型参数。如第0层的[64, 6, 2, 2]代表输出通道64,卷积核6*6,步幅2,填充2;第9层的[1024, 5]代表输出通道1024,最大池化核5*5;第13层的[512, False]代表输出通道512,不使用残差连接
  • 0-P1/2:0代表层索引;P1代表第一张特征图;2代表下采样倍数

2 骨干网络

2.1 C3(CSP Bottleneck with 3 convolutions)

CSP(Cross Stage Partial):一种改进的网络结构,用于增强信息流通、减轻信息冗余、并减少计算量。将特征图划为两部分,一部分直接通过,另一部分经过一系列卷积操作后再与之前的部分合并。

2.2 Bottleneck

常见结构,将高维特征压缩到低维,再恢复到高维。目的是在保持模型表示能力的同时减少计算成本、参数数量。

结构

  • 1*1卷积层(降低维度):如果输入的通道数是256,可以降维成64
  • 3*3卷积层(提取特征):对降维后的特征图进行特征提取。由于通道数变少,计算代价也变少
  • 1*1卷积层(恢复维度):保证输出的特征维度与输入相同
  • 残差连接(residual connection):输入的特征图与讲过上述三层卷积操作的输出特征图直接相加。这种跳跃连接的方式使得模型能保留原始信息,减轻梯度消失

2.3 特征图说明

C3模块的输入、输出特征图尺寸不变,因为不标记为新的特征图

3 Detect模块

[[17, 20, 23], 1, Detect, [nc, anchors]]

从17、20、23层提取特征图(P3/P4/P5)作为模块输入

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值