YOLOV4

这篇论文的创新点很少,目的是在提高准确率的同时保证运行速度,同时为了每个人都可以运行出相同的结果,试验条件选用的是单GPU(1080Ti、V100GPU等)。论文使用各种技术以提高试验结果,是在YOLOV3上的改进。论文列出了在数据增强、激活函数等方面的各种新技术然后做实验做对比,分析那些技术起到积极作用,对于学习新技术还是非常有用的。
作者认为检测器由几部分构成如图1所示:
在这里插入图片描述

图1 检测器的结构
各个部分的代表技术如图2所示。

在这里插入图片描述

图2 各个部分的技术

作者认为提高模型性能的方法可以分为两类:

  1. Bag of freebies: 改变模型训练的训练方法从而提高性能如数据增强、回归损失函数。
  2. Bag of specials: 提高模型某一属性的性能如加大感受野(SPP)、使用注意力机制(SE、SAM)增强特征整合能力(FPN)、激活函数、后处理方法(NMS)。

论文从分类和检测两个方面测试了模型的性能,使用的技术如图3.文字如下:
在这里插入图片描述

图3 YOLO4使用的技术

分类

  • backbone CSPResNeXt-50[1]、 CSPDarknet-53 [1]。
  • 数据增强:MixUp[2]、CutMix[3]、Mosaic[本文论]、Bluring[本论文]。
  • 正则化:label smoothing[4]、DropBlock。
  • 激活函数:LReLU[5]、Swish[6]、Mish[7]。
  • 正则化:label smoothing。
  • 跳跃连接: Cross stage partial connections (CSP)。
  • head:YOLOv3。

结果 论文测试分类的最强组合为 CSPResNeXt-50+BOF+Mish。

检测

  • backbone CSPResNeXt-50。
  • 数据增强:Mosaic。
  • 正则化:label smoothing、DropBlock
  • 标准化:cross mini-batch normolization(CmBN, come from CBN[8])。
  • 激活函数:LReLU、Swish、Mish。
  • 回归损失函数:MSE、GIoU[9]、DIoU[10]、CIoU[10]。
  • 跳跃连接: Cross stage partial connections (CSP)。
  • 其他:gird sensitivity elimination、self-adversarial training(SAT)、cosine annealing scheduler[11]、dynamic mini-batch size、SPP[12]、SAM[13]、RFB[14]、BiFPN[15]、Gaussian-YOLO[16]。PAN[17]、ASFF[18]

因为试验在一块GPU上进行所以像多卡的技术syncBN[19]、不被使用。

CSPResNeXt-50和CSPDarknet-53的比较如图4所示。作者认为检测选择backbone的因素有两个:

  1. 要有足够大的receptive field也即有大量的3x3卷积层。

大的感受野可以看到图像中的整个目标以及目标周围的事物。

  1. 有大量的参数。

使网络可以更好的在图像中检测不同尺寸的目标。

所以作者选择CSPDarknet-53 作为检测器的backbone。作者做了大量实验表明在分类方面CSPResNe-50Xt优于CSPDarknet-53,在检测方面正好相反

在这里插入图片描述

图4 不同backbone的比较

结果 论文测试检测的最强组合为CSPDarknet53-PANet-SPP(BoF-backbone + Mish)。其中BOF-backbone为使用BOF预训练的分类模型backbone。这也验证了分类最好的模型并不是最好的检测模型

参考文献
[1] Chien-Yao Wang, Hong-Yuan Mark Liao… CSPNet:
A new backbone that can enhance learning capability of
cnn. (2020 CVPR Workshop)
[2] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and
David Lopez-Paz. MixUp: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017
[3] Sangdoo Yun, Dongyoon Han, Seong Joon Oh…CutMix: Regularization strategy to train strong classifiers with localizable
features.(ICCV), pages 6023–6032, 2019
[4] Christian Szegedy, Vincent Vanhoucke…a. Rethinking the inception architecture for computer vision. (CVPR), pages 2818–2826, 2016
[5] Andrew L Maas, Awni Y Hannun,… Rectifier nonlinearities improve neural network acoustic models. (ICML), volume 30, page 3, 2013
[6] Prajit Ramachandran…Searching for activation functions. arXiv preprint
arXiv:1710.05941, 2017.
[7] Diganta Misra. Mish: A self regularized nonmonotonic neural activation function. arXiv preprint arXiv:1908.08681, 2019
[8]Zhuliang Yao, Yue Cao,… Cross-iteration batch normalization. arXiv preprint arXiv:2002
[9]Hamid Rezatofighi, Nathan Tsoi, … Generalized intersection over union: A metric and a loss for bounding box regression. (CVPR), pages 658–666, 2019
[10] Zhaohui Zheng, Ping Wang,… Distance-IoU Loss: Faster and better learning for bounding box regression. (AAAI),2020
[11] Ilya Loshchilov and Frank Hutter. SGDR: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016
[12]Kaiming He, Xiangyu Zhang, Shaoqing Ren,…Spatial pyramid pooling in deep convolutional networks for visual recognition. (TPAMI), 37(9):2015
[13] Sanghyun Woo, Jongchan Park… CBAM: Convolutional block attention module.(ECCV), pages 3–19, 2018
[14] Songtao Liu, Di Huang, et al. Receptive field block net for
accurate and fast object detection. (ECCV), 2018
[15] Mingxing Tan, Ruoming Pang,. EfficientDet: Scalable and efficient object detection. (CVPR), 2020.
[16] Jiwoong Choi, Dayoung Chun,… Gaussian YOLOv3: An accurate and fast object detector using localization uncertainty for autonomous driving.(ICCV), pages 502–511, 2019
[17] Shu Liu, Lu Qi, Haifang Qin,.;Path aggregation network for instance segmentation.(CVPR), pages 8759–8768, 2018
[18] Songtao Liu, Di Huang, and Yunhong Wang. Learning spatial fusion for single-shot object detection. arXiv preprint arXiv:1911.09516, 2019
[19] Hang Zhang, Kristin Dana, … Context encoding for semantic segmentation. (CVPR), pages 7151–7160, 2018

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值