yolov4方法详细介绍---看这一篇就够了！

慕溪同学

已于 2024-05-03 20:11:28 修改

阅读量2.2k

点赞数 3

分类专栏： YOLO 目标检测论文精读文章标签： YOLO 深度学习目标检测机器学习 yolo

于 2023-07-19 14:07:33 首次发布

本BLOG上原创文章未经本人许可，不得用于商业用途。转载请注明出处，否则保留追究法律责任的权利。

本文链接：https://blog.csdn.net/J_oshua/article/details/131795786

版权

目标检测论文精读同时被 2 个专栏收录

14 篇文章 6 订阅

订阅专栏

YOLO

8 篇文章 18 订阅

订阅专栏

在这里插入图片描述

最开始入坑深度学习的时候是从yolov5版本开始，虽然会使用，但是不能理解作者为什么要使用这些方法，对底层源码和结构并不了解，所以又从头开始把v1-v4每个版本的论文和源码都详细阅读一遍，最后总结一下v4的方法吧，这个版本几乎把当年所有优秀顶会的论文方法都容纳进来了，像SAM注意力机制和sppnet等方法，非常建议大家把这篇论文认真阅读一下，后期会总结v7,v8的源码和论文讲解，v6建议大家直接跳过，和v5内容很相似，看v5就足够了；

在这里插入图片描述
【yolov1：背景介绍与算法精讲】
【yolo9000：Better, Faster, Stronger的目标检测网络】
【YOLOv3：算法与论文详细解读】

YOLOV4

1、整体概述

在这里插入图片描述

虽然作者换了，但是运用到前3个版本的精髓
细节上的改进，并没有大的改动
将别人好的内容都添加进来

2、贡献解读

比较亲民，不需要很高的设备，单GPU就能训练很好
两大核心方法，从数据层面和网络设计层面
消融实验，融合2020年所有好的方法
全部实验单GPU就能完成

3、数据增强策略

1、Bag of freebies(BOF)

只增加训练成本，但是能显著提高精度，并不影响推理速度
数据增强:调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转
网络正则化的方法: Dropout、Dropblock等
类别不平衡，损失函数设计

数据增强

（1）mosaic data augmentation

方法很简单，参考CutMix论文方法，然后将四张图像拼接成一张进行训练，也就是分别对4张图片作旋转、色调等数据增强操作，最后拼接到一张图片，间接的增加了batch_size。
在这里插入图片描述

mixup是将两张图片透明50%叠加
cuout将图片去掉某一块内容

（2）random Erase

🐏用随机值或训练集的平均像素值替换图像的区域：随机遮盖

在这里插入图片描述

（3）Hide and Seek

根据概率设置随机隐藏一些区域

在这里插入图片描述

（4）Self-adversarial-training(SAT)

输入图片的时候通过引入噪音点来增加识别难度

在这里插入图片描述

4、DropBlock与标签平滑

（1）DropBlock

之前的dropout是随机选择点进行消除，如图(b)，现在吃掉某一个区域如图（c）

在这里插入图片描述

（2）Label Smoothing

神经网络最大的缺点就是容易过拟合，所以将原来很绝对的图片标签，进行平滑偏移
例如原来猫狗标签为 (0,1)太过于绝对使用一些方法进行标签平滑，例如: [0,1]x(1-0.1)+0.1/2 = [0.05,0.95]

在这里插入图片描述

使用之前，会发现数据非常接近，过拟合比较严重，分界线不明显；使用之后效果分析(右图):簇间更分离簇内更紧密

在这里插入图片描述

5、损失函数问题

（1）IOU损失

定义：1-IOU 表示真实框与预测框之间的差异

（2）产生的问题

1、预测框与真实框之间不相交的时候，IOU=0，无法进行梯度计算
2、相同的IOU反映不出实际预测框与真实框之间的情况，如下：

在这里插入图片描述

（3）解决办法

引入GIOU

公式：当两个框距离越远，|C-两框并集|值越大

在这里插入图片描述

引入了最小封闭形状C (可以把A，B包含在内)

在这里插入图片描述

GIOU解决了不重叠情况下，也就是IOU=0的情况，也能让训练继续进行下去；
但是重叠的情况依旧无法判断，如下：

在这里插入图片描述

引入DIOU

公式

在这里插入图片描述

其中分子计算预测框与真实框的中心点欧式距离d
分母是能覆盖预测框与真实框的最小BOX的对角线长度C
当两个框重叠的时候，欧式距离为0

在这里插入图片描述

计算结果：
在这里插入图片描述

6、CIOU函数

YOLOv4使用的是CIOU损失，损失函数必须考虑三个几何因素: 重叠面积，中心点距离，长宽比
和前面两种损失函数相比，多了一个长宽比因素

公式：

在这里插入图片描述

7、NMS细节改进

（1）DIOU-NMS

和BOF不同的是：NMS需要对预测框进行判断，所以肯定会影响我们的推理速度
之前使用NMS来决定是否删除一个框，现在改用DIOU-NMS
不仅考虑了loU的值还考虑了两个Box中心点之间的距离
其中M表示高置信度候选框，Bi就是遍历各个框跟置信度高的重合情况

公式：也就是在原有的NMS上添加一个DIOU
在这里插入图片描述

（2）soft-NMS

和DIOU-NMS相比，是没那么严格的NMS，即使没有达到阈值也会进行第二次判断，例如下面这个图片，上边框都在同一高度，如果使用DIOU-NMS，可能会把绿色的框删除掉，但是soft-nms会判断它属于另外一匹马，保留该框

在这里插入图片描述

8、SPP与CSP网络结构

BOS(Bag of specials)

增加稍许推断代价，但可以提高模型精度的方法
网终细节部分加入了很多改进，引入了各种能让特征提取更好的方法
注意力机制，网络细节设计，特征金字塔等

SPPNet(Spatial Pyramid Pooling)

V3中为了更好满足不同输入大小，训练的时候要改变输入数据的大小
SPP作用：1、增加感受野；2、最大池化来满足最终输入特征一致即可,将特征图pooling成相同大小，最后将相同大小特征图堆叠到一起；
如下图：图片输入之后将不同大小特征图maxpooling成相同size大小，最后将特征图连接在一起。

在这里插入图片描述

CSPNet(Cross Stage Partial Network)

🏵️每一个输入特征图，按照特征图的channel维度拆分成两部分，一份正常走网络，另一份直接concat到这个特征的输出，这样可以节省更多的时间，而且精度并没有下降；

在这里插入图片描述

9、SAM注意力机制模块

在这里插入图片描述

CBAM定义：卷积带了一个注意力机制，既有channel，也有位置的
注意力机制：在图像处理中，注意力机制可以帮助模型在处理图像时，选择关注图像中的重要部分。例如，通过引入空间注意力机制，模型可以根据图像的内容自动确定关注的区域，而不是简单地对整个图像进行处理。这种机制可以提高图像处理任务的精度和效率。
例如：一个32x32x256特征图，通过channel attention module划分为200，50，6三个不同的类，每块权重值都不一样，将权重值乘在特征图当中，重要部分特征图的权重值会大；同理：将空间位置也添加注意力机制，不同的位置，它的重要程度不一样；

SAM:不再有channel的注意力机制，而是只有空间注意力机制，这样会更加容易计算

YOLOV4注意力机制改进

（a）是原始的SAM，需要经过最大池化和平均池化，再经过卷积和sigmoid分配权重，最后加权相乘
（b）改进后只需要经过一层卷积和sigmoid

在这里插入图片描述

10、PAN模块解读

先了解FPN

思想：自顶向下的模型，将高层的特征传下来，与中层和底层进行特征融合，p5、p4、p3、p2是融合后的特征
问题：（1）如何自下向上将底层特征与高层特征融合？（2）网络可能有很多层，从底层走到高，再从高走到底，按照原路径走非常影响效率，这个路径该如何走？

在这里插入图片描述

PAN(Path Aggregation Network)

解决思路：

（1）引入了自底向上的路径，使得底层信息更容易传到顶部
（2）再引入一条线路，也就是如图p2—>N2这条线路，并且还是一个捷径，红色的没准走个100层(Resnet)，绿色的线路只用走几层就到了

在这里插入图片描述

V4中PAN特征融合方法

传统的PAN特征融合使用的是addition加法运算，v4中使用的是拼接操作，将部分特征拼接成一块

在这里插入图片描述

11、激活函数与整体架构

Mish激活函数

Relu函数在x负半轴特征设置为0，太过于绝对，Mish更加符合实际情况，但是会增加计算量，效果会有一定的提升。

公式：
在这里插入图片描述

消除网格敏感性eliminate grid sensitivity

这个比较好理解，坐标回归预测值都在0-1之间（网格的相对位置），如果在grid边界怎么表示?
从图像可以看出sigmoid函数很难达到1和0，需要非常大的数值才可以达到边界。

在这里插入图片描述

为了缓解这种情况可以在激活函数前加上一个系数(大于1的)，让坐标更容易达到1，方法如下：

在这里插入图片描述

整体架构

在这里插入图片描述

它采用了一种基于卷积神经网络的端到端的架构。整体架构可以分为三个主要组件：主干网络、特征金字塔网络和预测头。

1、主干网络：YOLOv4使用了一个强大的主干网络作为特征提取器。主干网络通常使用预训练的卷积神经网络，如Darknet-53等，来提取输入图像的特征。这些特征将被传递到接下来的组件中进行进一步处理。
2、特征金字塔网络：特征金字塔网络用于处理来自主干网络的特征，并提取多尺度的特征。这样可以在不同尺度上检测目标，从而提高检测的准确性。YOLOv4使用了一个特殊的特征金字塔网络，称为SPP（Spatial Pyramid Pooling），它可以在不同尺度上提取特征，并将它们融合在一起。
3、预测头：预测头是YOLOv4的最后一部分，用于预测目标的位置和类别。它根据特征金字塔网络输出的特征图进行预测。YOLOv4使用了一种称为YOLOv3的预测头结构，该结构包括多个不同尺度上的预测层。每个预测层预测一组边界框的位置和类别，并使用锚框来调整预测结果。