一:论文简介
yolov4:Optimal Speed and Accuracy of Object Detection
2020 CVPR
网络结构:Backbone:CSPDarknet53
neck:SPP、PAN
Head:YOLOv3
优化策略:Eliminate grid sensitivity、Mosaic data augmentation、IoU threshold(match posotive samples)、Optimizered Anchors、CIOU
二:CSPDarknet53
了解CSP:AI论文精读之CSPNet—— 一种加强CNN模型学习能力的主干网络
CSP的优点:提高CNN的学习能力、移除计算瓶颈、减少内存开销
CSPNet结构是在通道方向上进行均分
在yolov4中,先经过下采样,然后经过两个1*1的卷积层,卷积核的个数都是输入特征层的一半
CSPDarknet53的具体结构和YOLOv4整体的网络结构:YOLOv4网络详解
二:SPP
这里步距为1,通过padding,输入特征图大小和输出特征图高度、宽度和channel是一样的。通过SPP结构,能够在一定程度上解决多尺度问题
三:PAN
网络的backbone主要用于特征提取,在提取的特征层上构建特征金字(FPN),就是将高层的语义信息往低层进行融合,而b是将低层语义信息向高层进行融合,这两部分融合在一起,就是PAN。在原来的PAN中,特征层融合是采用相加的策略,但是在YOLOv4中,是采用特征层在深度方向上进行拼接的策略
四:优化策略
1.Eliminate grid sensitivity
如果gt box的中心点落在grid cell边界处,比如bx=cx,sigmoid(tx)=0,只有x趋近于无穷时才能等于0,所以引入了scale,对函数进行缩放和平移得到新的函数,则解决了gt box的中心点落在grid cell边界处的问题。
比较主流的代码中,scale=2
图像:蓝色是sigmoid,黄色是对其进行放大2倍,绿色是对黄色在进行向下平移
2.Mosaic data augmentation
将四张不同的图片按照一定规则拼接在一起,拼接好之后得到一张新的图片,能够扩充训练样本的多样性。
3.IoU threshold(match posotive samples)
https://blog.csdn.net/qq_37541097/article/details/123229946
4.Optimizered Anchors
对anchors进行优化,但yolov5使用的还是yolov3
5.CIOU
这个在之前讲过啦