从YOLOV8检测头开始，对YOLOV8的一些理解

creeper_boom

已于 2024-05-09 11:28:04 修改

阅读量8.8k

点赞数 32

文章标签： YOLO

于 2024-03-26 11:13:03 首次发布

本文链接：https://blog.csdn.net/creeper_boom/article/details/137027634

版权

文章分析了YOLOV8检测头的特点，其参数量大是因为采用了解耦结构，分为Cls和Box回归分支。文章详细介绍了网络结构中的关键模块，如Conv.,C2f,SPPF等，并讨论了轻量化和解耦头在不同场景下的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

YOLOV8的检测头很有特点，它的参数量几乎占了整个模型的一半，如下图。

而反观YOLOV5的检测头的体量就比YOLOV8的小很多。

分析这个现象，要先从YOLOV8的网络结构入手。为了便于理解，我先列出一些复合模块的概念。

①Conv.

网络中最常用到的卷积模块，由卷积层、Batch Normalization层、激活函数层（可替换）组成，输入参数含义为（输入通道数-c1, 输出通道-c2, 卷积核大小-k, 卷积核步长-s），其中主要参数都传入了模块中的卷积层，BN层只接收c2作为参数，激活函数层不需要参数。

②C2f.

C2f中的一个核心模块叫做Bottleneck模块，输入参数为（输入通道数-c1, 输出通道-c2），一般情况下c1=c2，因为这个模块的作用一般是用于融合通道间的信息。要注意的是当Bottleneck模块传入的参数shortcut==True时，经过卷积得到的结果会和输入进行add操作，shortcut==False时，不会进行add操作。在Bottleneck模块定义中，默认shortcut=True，而在C2f定义中默认shortcut=False。

综上，可以得出C2f的结构，输入参数为（输入通道数-c1, 输出通道-c2,Bottleneck模块数-n,输出通道比例-e默认为0.5）输入在经过一个卷积模块之后，输出通道数变为(c2*e*2)，默认情况下为c2，经过split或chunk平均分割为两份，注意这里在送入Bottleneck模块前会提取两遍卷积输出，而后每经过一个Bottleneck模块就提取一次输出，最后将所有提取到的输出做Concat处理，得到的结果通道数就为(c2*0.5*(n+2))，最后再经过一个卷积模块，目的是将通道数转为c2。

③SPPF

SPPF层输入参数为（输入通道数-c1, 输出通道-c2,池化层大小-k），将输入经过一个卷积模块压缩通道数后，连续经过3个最大池化层得到的3个输出与原输出做Concat处理，再经过一个卷积模块转换通道数，得到输出。

④Upsample

上采样，采用的是反卷积，用于增大图像。

至此，可以得出YOLOV8的backbone，未包含检测头，看上去很简单。

我们再把YOLOV8的head加上去，但是不加最后一层检测头，网络的深度一下子大了很多。

YOLOV8的检测头分为3个，分别以上图网络的最后3个C2f层的输出作为输入，而YOLOV8的检测头参数量大幅增加的原因是YOLOV8采用了解耦头，分为Cls分类、Box回归两个分支，并去除了Obj loss的计算分支。

检测头中的参数中，c2=max(16, ch[0], reg_max*4)，其中reg_max为计算回归损失的超参数，默认为16，所以c2=64；c3=max(ch[0], min(nc, 100))，以coco数据集（nc=80）为例，c3=100，两路计算得到的结果经过Concat后输出。

综上，YOLOV8的总体架构如下图。YOLOV8集成的姿态估计（pose）、旋转目标检测（OBB）等功能，都是在在检测头上做出了更换，网络的主体架构不变。同时，一种轻量化的思路就是将检测头变为两个分支共享参数的结构，但相应的特征提取能力也会变弱。对于解耦头的使用，在检测类别较多的时候，特征提取能力提升较明显，因为在多类别训练中，Cls分类分支是与类别相关的，Box回归分支与类别无关（在与目标进行loss计算时，不会考虑目标的类别）；而在单类检测时，Cls分类分支和Box回归分支都与类别相关，所以往往用共享参数的耦合头效果会更好。