YOLOv4论文翻译及总结

最新推荐文章于 2024-08-06 16:18:03 发布

龙海L

最新推荐文章于 2024-08-06 16:18:03 发布

阅读量1.8k

点赞数 2

分类专栏：目标检测图像处理技巧文章标签： YOLOv4 目标检测计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_36523203/article/details/111470351

版权

YOLOv4在目标检测领域引入了一系列创新，包括Mosaic数据增强、CSPDarknet53主干网络、SPP模块、FPN+PAN融合结构、CIOU_loss损失函数等。通过集成多种技术，YOLOv4提升了模型的性能和鲁棒性，特别是在数据增强、BackBone、Neck和预测输出端的改进，实现了显著的性能提升。

摘要由CSDN通过智能技术生成

借鉴文章：https://zhuanlan.zhihu.com/p/143747206
自己关于YOLO-YOLOv3的记录链接：
YOLO系列网络原理
YOLOv4资源链接：
论文：添加链接描述
代码：python代码：https://github.com/Tianxiaomo/pytorch-YOLOv4
c++代码：https://github.com/AlexeyAB/darknet
python版本的Tensorrt代码：
https://github.com/hunglc007/tensorflow-yolov4-tflite
c++版本的Tensorrt代码：
https://github.com/hunglc007/tensorflow-yolov4-tflite

但我觉得算法创新分为三种方式：

第一种：面目一新的创新，比如Yolov1、Faster-RCNN、Centernet等，开创出新的算法领域，不过这种也是最难的
第二种：守正出奇的创新，比如将图像金字塔改进为特征金字塔
第三种：各种先进算法集成的创新，比如不同领域发表的最新论文的tricks，集成到自己的算法中，却发现有出乎意料的改进

Yolov4既有第二种也有第三种创新，组合尝试了大量深度学习领域最新论文的20多项研究成果
为了便于分析，将Yolov4的整体结构拆分成四大板块：
在这里插入图片描述

创新主要在以下四个部分：

输入端：主要是训练时对输入端的改进，主要包括Mosaic数据增强、cmBN、SAT自对抗训练
BackBone主干网络：将各种新的方式结合起来，包括：CSPDarknet53,Mish激活函数、Dropblock
Neck:目标检测网络在BackBone和最后的输出层之间往往会插入一些层，比如YoloV4的SSP模块、FPR+PAN结构
Prediction预测输出端:输出层的锚框机制和YOLOv3相同，主要改进的损失函数CIOU_Loss,以及预测框删选的nms变为DIOU_nms

YOLOv4对YOLOv3的各个部分都进行了改进优化，下面作者的算法对比图。
在这里插入图片描述

输入端创新

（1）Mosaic数据增强

Mosiac是基于2019年底提出的CutMix数据增强的方式，但CutMix只使用了两张图片进行拼接，而Mosaic数据增强则采用了4张图片，随机缩放、随机裁剪、随机排布的方式进行拼接。
在这里插入图片描述

为什么使用Mosaic？可以增加小目标的数量，使得训练数据中的小目标、中目标和大目标的数据均衡。Mosaic数据增强具有几个优点：

丰富数据集：
随机使用四张图，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，增强鲁棒性；
减少GPU：可能会有人说，随机缩放，普通的数据增强也可以做，但作者考虑到很多人可能只有一个GPU，因此Mosaic增强训练时，可以直接计算4张图片的数据，使得Mini-batch大小并不需要很大，一个GPU就可以达到比较好的效果。

此外，在训练中，作者也加入了一种技巧值得借鉴技巧：在训练计算Losss时采用缺啥补啥的思路：如果上一个iteration中，小物体产生别的loss不足，则下一个iteration就用拼接图；否则就用正常的图训练。

SAT自对抗训练
是生成对抗样本那个标记训练。是一种数据增强技术。首先会在训练样本上执行一次前向通过。使用传统方法时，我们会在反向传播过程中调整模型的权重来提升检测器检测图像中目标的能力。但这里所采样的方向却相反。它会修改图像，使其能在最大程度上降低检测器的性能，即创建以当前模型为目标的对抗攻击–即使新图像可能在人眼看来与原来的一样。接下来，使用这张新图像与原始的边界框和类别标签来训练该模型。这有助于提升模型的泛化能力并降低过拟合。
CutMix数据增强
下面是最近论文提出的数据增强的集中方法的对比。
在这里插入图片描述
Cutout 数据增强会移除图像的部分区域（见下图）。这会迫使模型在执行分类时不过于相信特定的特征。但是，如果图像的某部分充满了无用信息，则这种操作就浪费了。CutMix 的做法则不同，其是将图像的一部分剪切下来再粘贴到另一张图像上。其基本真值标签会根据补丁的面积比例进行调整，比如狗的部分占 0.6，猫的部分占 0.4。