YOLOv8架构详解

AdaCoding

已于 2024-05-15 14:35:07 修改

阅读量2w

点赞数 43

分类专栏： YOLOv8改进系列文章标签： YOLO 网络结构图

于 2024-03-26 22:42:37 首次发布

本文链接：https://blog.csdn.net/weixin_41171614/article/details/137060324

版权

YOLOv8改进系列专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了YOLOv8架构，包括Backbone的特征提取过程，Head中的融合和任务处理部分，以及可能的Neck结构划分。通过对比两种解释，阐述了如何区分和改进YOLOv8的不同模块以提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在视觉深度学习中，通常将模型分为 2~3 个组成部分：backbone、neck（可选）和 head。

Backbone（主干网络）负责从输入图像中提取特征，将图像转化为具有丰富语义信息的特征表示。
Neck（颈部，连接部）是一个中间层，用于对来自 backbone 的特征进行融合，以提升模型的性能。
Head（任务头）是模型的最后一层，其结构会根据不同的任务而有所不同。例如，在图像分类任务中，我们通常会使用 softmax 分类器作为 Head，而在目标检测任务中，我们则可能会使用边界框回归器和分类器作为 Head。

YOLOv8 架构图

关于下面经典的架构图的简要说明：

图的上面部分为 YOLOv8 架构的概要图（包括 Backbone，Head）。YOLOv8 没有使用Neck 这个概念，但其架构图中 Head 中类似 PANet 功能的部分也可以归为 Neck。
图右中位置 Detail 为各个组件的详细架构示例，另说明了不同模型大小的参数选择。
图左 + 图下部分，以分步的方式列出了完整的数据流。
每个框的右上角的数字为层的编号，可以和后面的示例输出 1 对照看。

可以看出，YOLOv8 Backbone 为 0~9 层，10~21 层为 YOLOv8 Head。
在这里插入图片描述

在这里插入图片描述

YOLOv8 Backbone部分

见图中第 0~9 层。分别为

Conv + Conv + C2f
Conv + C2f（对齐特征金字塔 P3）
Conv + C2f（对齐特征金字塔 P4）
Conv + C2f + SPPF（对齐特征金字塔 P5）

YOLOv8 Head部分

Neck和Head结构

第一种解释：

在YOLOv8 的yaml文件中并没有显示地划分出Neck部分，实际上Neck网络结构就是其Head 网络结构中部分的前半部分。

head部分整体图：
在这里插入图片描述

head:

  ###neck###
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]  # cat backbone P4
  - [-1, 3, C2f, [512]]  # 12

  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]  # cat backbone P3
  - [-1, 3, C2f, [256]]  # 15 (P3/8-small)
  ###########
  
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]]  # cat head P4
  - [-1, 3, C2f, [512]]  # 18 (P4/16-medium)

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]]  # cat head P5
  - [-1, 3, C2f, [1024]]  # 21 (P5/32-large)

  - [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

yaml配置文件中，注释段落即为Neck结构

第二种解释：

head:

  ###neck###
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]  # cat backbone P4
  - [-1, 3, C2f, [512]]  # 12

  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]  # cat backbone P3
  - [-1, 3, C2f, [256]]  # 15 (P3/8-small)
  
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]]  # cat head P4
  - [-1, 3, C2f, [512]]  # 18 (P4/16-medium)

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]]  # cat head P5
  - [-1, 3, C2f, [1024]]  # 21 (P5/32-large)
  ###########
  
  - [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)