目标检测入门之再读YOLOv4(一)

最新推荐文章于 2024-06-30 15:59:08 发布

赵卓不凡

最新推荐文章于 2024-06-30 15:59:08 发布

阅读量2.2k

点赞数

分类专栏：深度学习文章标签：计算机视觉深度学习 python

本文链接：https://blog.csdn.net/sgzqc/article/details/121603015

版权

深度学习专栏收录该内容

59 篇文章 25 订阅

订阅专栏

1 引言

之前有将介绍过YOLOv1,YOLOv2,YOLOv3,本文要来介绍很火的目标检测算法YOLOv4，该算法是在原有YOLO目标检测架构的基础上，采用了近些年CNN领域中最优秀的优化策略，从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化.

YOLOv4的论文链接: 戳我

接下来我们重点分析YOLOv4相关的改进点.由于YOLO4是集大成者,使用了很多近年来的各种技巧实验.
涉及内容较多,由于篇幅原因, YOLOv4的讲解分为上下两篇进行:
上篇进行整体介绍,聚焦在网络整体结构上,下篇重点介绍各种优化策略.

闲话少述,我们直接开始 😃

2 主要贡献

YOLOv4在YOLO3上各个部分做改进,在保证速度的同时,大幅提高了模型的检测精度,并降低硬件使用的要求.

在这里插入图片描述
由上图可以看出YOLOv4在MS COCO数据集上获得了43.5%的AP值(65.7% AP50). YOLOv4在与EfficientDet同等性能的情况下,速度是EfficientDet的两倍;与YOLOv3相比,YOLOv4的AP和FPS分别提高了10%和12%.
该研究的主要贡献如下:

建立了一个强大高效的目标检测模型,并且使用1080TI或2080TI的GPU就可以进行训练
验证了SOTA的Bag-of-Freebies和Bag-of-Specials目标检测方法在检测器训练过程中的影响
改进了一些tricks,SOTA的方法,包括CBN,PAN,SAM等,使之更加高效,并你能够在单个GPU上训练

3 Tricks

Tricks一般指在网络训练和测试时所采用的技巧,在作者论文里将tricks分为两大类:Bag-of-Freebies 和 Bag-of-Specials.

Bag-of-Freebies是指在网络训练时所用到的技巧,不影响推理预测的时间,主要包括以下几个方面:

数据增强: Random erase, CutOut,Hide-and-seek,Grid mask,GAN,MixUp,CutMix
正则化方法: DropOut,DropConnect
处理数据不平衡问题: focal loss, Online hard example mining, hard negative example mining
处理预测框回归问题: MSE,IOU,GIOU,DIOU/CIOU

Bag-of-specials是指在网络设计或处理时所用到的技巧,轻微增加推理预测时间,但可以提升较大的精度,主要包括:

感受野: SPP,ASPP,RFB
特征融合: FPN,PAN
注意力机制: attention module
激活函数: Swish, Mish
NMS: Soft-NMS,DIou NMS

4 网络结构

目标检测一般由以下几个部分组成:

Input: 指图片的输入
BackBone: 在ImageNet预训练的主干
Neck:通常用来提取不同层级的特征图
Head: 预测对象类别以及预测框的检测器,通常分为两类Dense Prediction(one stage)以及Sparse Prediction (two stage)

在这里插入图片描述
YOLOv4的模型架构由三部分组成:

BackBone: CSPDarknet53
Neck: SPP + PAN
HEAD: YOLO HEAD
以下分别针对三个部分进行详细展开阐述.

4.1 BackBone–CSPDarknet53

为了使网络能够快速操作并并行化优化,作者提供了两种神经网络主干

对于GPU,在卷积层中使用少量组(1-8group)的卷积,并将ResNeXt50,Darknet53分别与Cross Stage Partial Network(CSPNet)结合,组成了CSPResNeXt50和CSPDarknet53
由下表的实验证明CSPResNeXt50适合用于分类网络,而CSPDarknet53更适合用于检测网络,因此作者最后选择使用CSPDarknet53作为特征提取的主干

在这里插入图片描述