YOLO网络结构特点收录

会撸代码的懒羊羊

于 2024-06-29 21:05:00 发布

阅读量495

点赞数 11

分类专栏： DNN 文章标签： YOLO 神经网络深度学习

懒羊羊

本文链接：https://blog.csdn.net/kangqiao0422/article/details/140070298

版权

7 篇文章 0 订阅

订阅专栏

YOLO（You Only Look Once）网络结构随着版本迭代不断进化，以下是一些关键版本的网络结构特点概述：

输入：将图像调整至固定尺寸，如448x448像素。
骨干网络：初期版本使用较为简单的网络结构，类似于GoogLeNet但不包含全连接层。
输出：直接预测出7x7（或根据设置调整的SxS）网格中的边界框信息和类别概率，每个网格预测B个边界框，输出维度为SxSx(Bx5+C)，其中5代表边界框的参数（x, y, w, h, 置信度），C为类别数。

骨干网络：升级为Darknet-53，更深更宽，提高了特征提取能力。
多尺度检测头：在不同层的特征图上应用检测头，分别对应不同尺度的目标检测，例如在3个不同尺度的特征图上进行预测，尺寸分别是13x13、26x26、52x52。
边界框数量增加：每个网格预测更多数量的边界框（如3个），提高了检测的多样性。

骨干网络：采用CSPDarknet53作为主干网络，提高了效率和准确性。
Neck（颈部结构）：结合SPP（空间金字塔池化）模块和PAN（路径聚合网络）以增强特征融合，SPP有助于捕获多尺度特征，PAN则是通过上采样和跳连结构整合不同尺度的特征。
训练技巧：引入了Mish激活函数、DropBlock正则化、CIoU损失函数等，进一步提升了模型性能。

在这里插入图片描述

跳跃连接（Skip Connections）：在不同层次之间通过跳跃连接传递信息，特别是在解码阶段结合低层的细粒度特征和高层的语义信息，以提高定位精度。
端到端训练：YOLO模型是端到端训练的，从图像输入到边界框和类别预测输出一次性完成，无需预选区域生成步骤。

从图像输入到边界框和类别预测输出一次性完成，无需预选区域生成步骤。

每个版本的YOLO都在前一代基础上进行了优化和创新，旨在提高检测精度的同时保持高效的运行速度，使其成为实时目标检测任务的理想选择。

了解更多知识请戳下：

@Author:懒羊羊

关注