关于yolov8的一些理解

硝烟_1994

已于 2023-04-24 08:26:56 修改

阅读量3.4k

点赞数 5

分类专栏：目标检测论文文章标签： YOLO 计算机视觉深度学习

于 2023-04-21 16:27:21 首次发布

本文链接：https://blog.csdn.net/qq_44804542/article/details/130288940

版权

1.前言

YOLOv8 是 ultralytics 公司在 2023 年 1月 10 号开源的 YOLOv5 的下一个重大更新版本。是一款强大、灵活的目标检测和图像分割工具，它提供了最新的 SOTA 技术。
在这里插入图片描述
Github: yolov8

在这里插入图片描述

网络结构优化的一种方法：替换基本组件；

参考了YOLOv5的C3模块以及YOLOv7的ELAN的模块进行的设计，让YOLOv8可以在保证轻量化的同时，通过引入更多的分支跨层连接可以获得更加丰富的梯度流信息。
相较于YOLOv7的ELAN模块的设计，C2F模块在输入/输出通道上没有做什么额外工作，在一定程度并不太符合ShuffleNet的一些设计准则：要想使卷积推理速度达到最快，输入通道应与输出通道保持一致。
C2F模块中存在 Split 等操作对特定硬件部署没有之前那么友好了

对不同尺度模型调整了通道数和模型的深度，属于对模型结构精心微调，不再是无脑一套参数应用所有模型，综合考虑模型的精度和推理速度
在这里插入图片描述

Yolov5中C3模块的堆叠遵循着3/6/9/3的配置，而在YOLOv8中，C2F的配置则是3/6/6/3的配置，其中的9被减小到了6，以压缩模型的规模
对于较轻量的YOLOv8-N和YOLOv8-S，基本通道数遵循128->256->512->1024的变化规律，即乘以各自的width参数即可。但是，对于较大的M/L/X，最后的1024则分别变成了768，512和512，如上图红框所示，C5尺度的通道数是有变化的。相当于加入一个参数ratio，简记r，基础通道数为512，那么从YOLOv8-N到YOLOv8-X，就一共有width(w)、depth(d)和ratio® 三组可调控的参数：
这种人为调控参数的目的在于提升模型精度的同时，控制计算量的大小，以实现和其它算法相比，达到SOTA效果；但这种强行调整的方式，人为雕琢的痕迹过重，网络结构的调整没有那么”优雅”。

对比spp，将简单的并行max pooling 改为串行+并行的方式。对比如下（左边是SPP，右边是SPPF）
在这里插入图片描述

NECK部分和yolov5结构基本一致，区别主要有两点

Anchor_base 调整为 Anchor_free
- 个人认为anchor box在一定程度上能够起到先验的作用，但其尺寸一般基于数据集统计分析得到，在一定程度上依赖于数据集本身的分布；
- 同时anchor的引入会带来额外的参数量，整体来说anchor_free还是较为简单明了；
参考yolox操作，对预测结果进行解耦：单独分支预测分类和定位
去掉了置信度分支
回归的内容是ltrb四个值（距离匹配到的anchor点的距离值），这里的regmax在后面进行解释
需要注意的是解耦头的类别分支和回归分支的通道数可能是不相等的，YOLOv8认为二者表征了两种不同的特征，应该不一样。因此，对于类别分支，YOLOv8将其通道数设置为

关注