前言——从YOLOV5的思想是如何在代码中被实现的角度拆分理解YOLO V5这样的一个大型模型-CSDN博客

本文链接：https://blog.csdn.net/vindicater/article/details/132576124

这个系列是关于YOLO V5代码的学习和研究。作者在暑期研究期间，导师在布置了学习ResNet50相关内容之后的任务直接就是学习YOLO V5相关的知识。出于对于知识的一个完整性的尊重和重视，作者先花费了一周时间仔细研究并且横向对比了一下YOLO系列之前的最主要的三个版本：V1-V3，并且略读了一下YOLO系列的V4看看具体做了什么改进。关于这两段学习经历我都在之前发了文章概述，关于V1-4的研习链接如下：

为YOLO V5铺垫：一文看懂YOLO V1-V4的变化_vindicater的博客-CSDN博客

从之前的学习中作者对于YOLO系列大致的思路有了一些模糊的把握。比如对于YOLO模型的结构分成了几个部分：Backbone部分，Neck部分，和最后计算Anchor时候的部分，代码应该就是基于这几个内容进行编写的。

作者学习的代码版本：V6.0

Release v6.0 - YOLOv5n 'Nano' models, Roboflow integration, TensorFlow export, OpenCV DNN support · ultralytics/yolov5 (github.com)

但是实际研究代码的时候作者发现遇到了如下的一些问题：

1.ultralytics在YOLO V5的压缩包中实现了很多功能的使用，包括识别：Detect，也就是最常用的一个部分，更是包含了segmentation：物体分割，以及在识别出来之后进行归类：classify。内容全面的另一个表达方式就是庞大复杂，极其容易让初学者或者新进入这个圈子的学者不知从何开始，难以上手。

2.如果仅考虑YOLO实现对于物体识别的能力，实际上YOLO支持三种处理对象：图片、视频、和网络摄像头。此外对于实际鉴别的时候，YOLO模型还支持不同方式保存的权重：