YOLOV4

最新推荐文章于 2023-09-15 10:23:48 发布

zjjszj

最新推荐文章于 2023-09-15 10:23:48 发布

阅读量310

点赞数

分类专栏：论文阅读文章标签：计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/ZJpingfanzhilu/article/details/106948897

版权

论文阅读专栏收录该内容

10 篇文章 0 订阅

订阅专栏

这篇论文的创新点很少，目的是在提高准确率的同时保证运行速度，同时为了每个人都可以运行出相同的结果，试验条件选用的是单GPU（1080Ti、V100GPU等）。论文使用各种技术以提高试验结果，是在YOLOV3上的改进。论文列出了在数据增强、激活函数等方面的各种新技术然后做实验做对比，分析那些技术起到积极作用，对于学习新技术还是非常有用的。
作者认为检测器由几部分构成如图1所示：
在这里插入图片描述

图1 检测器的结构各个部分的代表技术如图2所示。

在这里插入图片描述

图2 各个部分的技术

作者认为提高模型性能的方法可以分为两类：

Bag of freebies: 改变模型训练的训练方法从而提高性能如数据增强、回归损失函数。
Bag of specials: 提高模型某一属性的性能如加大感受野（SPP）、使用注意力机制(SE、SAM）增强特征整合能力（FPN）、激活函数、后处理方法（NMS）。

论文从分类和检测两个方面测试了模型的性能，使用的技术如图3.文字如下：
在这里插入图片描述

图3 YOLO4使用的技术

分类：

backbone CSPResNeXt-50[1]、 CSPDarknet-53 [1]。
数据增强：MixUp[2]、CutMix[3]、Mosaic[本文论]、Bluring[本论文]。
正则化：label smoothing[4]、DropBlock。
激活函数：LReLU[5]、Swish[6]、Mish[7]。
正则化：label smoothing。
跳跃连接： Cross stage partial connections (CSP)。
head：YOLOv3。

结果论文测试分类的最强组合为 CSPResNeXt-50+BOF+Mish。

检测

backbone CSPResNeXt-50。
数据增强：Mosaic。
正则化：label smoothing、DropBlock
标准化：cross mini-batch normolization（CmBN, come from CBN[8]）。
激活函数：LReLU、Swish、Mish。
回归损失函数：MSE、GIoU[9]、DIoU[10]、CIoU[10]。
跳跃连接： Cross stage partial connections (CSP)。
其他：gird sensitivity elimination、self-adversarial training（SAT）、cosine annealing scheduler[11]、dynamic mini-batch size、SPP[12]、SAM[13]、RFB[14]、BiFPN[15]、Gaussian-YOLO[16]。PAN[17]、ASFF[18]

因为试验在一块GPU上进行所以像多卡的技术syncBN[19]、不被使用。

CSPResNeXt-50和CSPDarknet-53的比较如图4所示。作者认为检测选择backbone的因素有两个：

要有足够大的receptive field也即有大量的3x3卷积层。

大的感受野可以看到图像中的整个目标以及目标周围的事物。

有大量的参数。

使网络可以更好的在图像中检测不同尺寸的目标。

所以作者选择CSPDarknet-53 作为检测器的backbone。作者做了大量实验表明在分类方面CSPResNe-50Xt优于CSPDarknet-53，在检测方面正好相反。

在这里插入图片描述

图4 不同backbone的比较

结果论文测试检测的最强组合为CSPDarknet53-PANet-SPP(BoF-backbone + Mish)。其中BOF-backbone为使用BOF预训练的分类模型backbone。这也验证了分类最好的模型并不是最好的检测模型。

参考文献
[1] Chien-Yao Wang, Hong-Yuan Mark Liao… CSPNet:
A new backbone that can enhance learning capability of
cnn. (2020 CVPR Workshop)
[2] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and
David Lopez-Paz. MixUp: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017
[3] Sangdoo Yun, Dongyoon Han, Seong Joon Oh…CutMix: Regularization strategy to train strong classifiers with localizable
features.(ICCV), pages 6023–6032, 2019
[4] Christian Szegedy, Vincent Vanhoucke…a. Rethinking the inception architecture for computer vision. (CVPR), pages 2818–2826, 2016
[5] Andrew L Maas, Awni Y Hannun,… Rectifier nonlinearities improve neural network acoustic models. (ICML), volume 30, page 3, 2013
[6] Prajit Ramachandran…Searching for activation functions. arXiv preprint
arXiv:1710.05941, 2017.
[7] Diganta Misra. Mish: A self regularized nonmonotonic neural activation function. arXiv preprint arXiv:1908.08681, 2019
[8]Zhuliang Yao, Yue Cao,… Cross-iteration batch normalization. arXiv preprint arXiv:2002
[9]Hamid Rezatofighi, Nathan Tsoi, … Generalized intersection over union: A metric and a loss for bounding box regression. (CVPR), pages 658–666, 2019
[10] Zhaohui Zheng, Ping Wang,… Distance-IoU Loss: Faster and better learning for bounding box regression. (AAAI),2020
[11] Ilya Loshchilov and Frank Hutter. SGDR: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016
[12]Kaiming He, Xiangyu Zhang, Shaoqing Ren,…Spatial pyramid pooling in deep convolutional networks for visual recognition. (TPAMI), 37(9):2015
[13] Sanghyun Woo, Jongchan Park… CBAM: Convolutional block attention module.(ECCV), pages 3–19, 2018
[14] Songtao Liu, Di Huang, et al. Receptive field block net for
accurate and fast object detection. (ECCV), 2018
[15] Mingxing Tan, Ruoming Pang,. EfficientDet: Scalable and efficient object detection. (CVPR), 2020.
[16] Jiwoong Choi, Dayoung Chun,… Gaussian YOLOv3: An accurate and fast object detector using localization uncertainty for autonomous driving.(ICCV), pages 502–511, 2019
[17] Shu Liu, Lu Qi, Haifang Qin,.;Path aggregation network for instance segmentation.(CVPR), pages 8759–8768, 2018
[18] Songtao Liu, Di Huang, and Yunhong Wang. Learning spatial fusion for single-shot object detection. arXiv preprint arXiv:1911.09516, 2019
[19] Hang Zhang, Kristin Dana, … Context encoding for semantic segmentation. (CVPR), pages 7151–7160, 2018

zjjszj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
YOLOV4

这篇论文的创新点很少，目的是在提高准确率的同时保证运行速度，同时为了每个人都可以运行出相同的结果，试验条件选用的是单GPU（1080Ti、V100GPU等）。论文使用各种技术以提高试验结果，是在YOLOV3上的改进。论文列出了在数据增强、激活函数等方面的各种技术然后做实验做对比。技术如下：分类：backbone CSPResNeXt-50（）、 CSPDarknet-53 （）。数据增强：MixUp（）、CutMix（）、Mosaic（）、Bluring（）。正则化：label smoothing
复制链接

扫一扫

专栏目录