YOLO算法综述

本文详细介绍了YOLO系列目标检测算法的发展,从YOLOv1到YOLOv7的改进,包括数据增强技术、骨干网络的选择、Anchor机制的演变等方面。文章还讨论了YOLO在不同领域的应用,如无人机、交通、口罩检测、人体检测等,并提出了未来研究方向,包括数据增强、网络结构优化和硬件适应性等。
摘要由CSDN通过智能技术生成

1 引言

目标检测作为计算机视觉领域中的重要任务[1],其目的在于检测给定图像中的感兴趣目标的类别与位置,这项技术为医学、自动驾驶等多个领域[2-5]的发展做出了重要贡献,无数研究员对其研究并取得大量研究成果。目标检测算法发展经历了两个阶段,第一个阶段是基于传统目标检测算法,主要以VJ[6],HOG[7],DPM[8]等为代表。而从2014年起,由于深度学习的发展,出现了基于深度学习的目标检测算法[1]并取得了巨大进展。

基于深度学习目标检测算法的综述很多:例如JIAO L等人[3-4]从基于深度学习的两阶段目标检测算法和一阶段目标检测算法来对比分析算法的发展,ZHAO Z Q等人[9]按照算法历程简要介绍各个算法并根据目标检测任务对算法发展进行分析与展望,FEIFEI SHAO等人[10]对弱监督目标检测方法的发展进行总结,ZHENG LI等人[2-4,6,11]则是聚焦于不同的目标检测任务,对基于特定任务的目标检测算法进行总结分析。

上述综述各有其优点与侧重点,本文将焦点放在一阶段目标检测算法中备受欢迎的YOLO算法。YOLO算法作为一阶段目标检测算法的开山之作,与两阶段算法例如R-CNN系列算法[12-16]有本质上的区别,YOLO将目标检测任务转化为单个神经网络的回归问题,能够在保持较高准确性的同时实现实时的目标检测。并且YOLO的开放源代码实现促进了计算机视觉研究和应用的发展,激发了很多基于YOLO的改进和变体算法的出现,进一步推动了目标检测领域的进展。本文沿着YOLO算法的发展历程如图1,总结其各个版本的变化以及其应用到不同检测任务的特有改进,探索YOLO算法未来的发展趋势。

图1 YOLO系列算法发展历程
图1 YOLO系列算法发展历程

 

2 YOLO系列算法

YOLO将目标检测视为回归问题,使用一个神经网络同时预测目标的位置与类别,提高了检测速度,并且其学习的是目标的泛化表示,易于应用到新的领域。由于其具有的特性以及其开源的做法吸引了大量的科研员在其基础上进行改进与创新,获得了大量成果。

2.1 YOLO 主要算法

按照如下顺序:YOLOv1、YOLOv2、YOLOv3、YOLO4、YOLOv5、YOLOX、YOLOv6、YOLOv7进行介绍。

2.1.1 YOLOv1

在2015年,Redmon等人提出YOLO[17](便于区分,后续写作YOLOv1)算法使得基于深度学习的目标检测算法有了单阶段和两阶段的区分。与RCNN[13]系列不同,YOLOv1将物体检测看作一个单一的回归问题,直接从图像生成边界框的坐标和分类概率。RPN[13]预测的是预测框和anchor的偏移量,而YOLOv1预测的是预测边界框中心点相对于对应网格左上角位置的相对偏移值。

相比其他目标检测方法,其优点在于:

一、划分网格的方法,避免了大量的重复计算,使YOLOv1算法达到了较快的检测速度,在VOC 2007数据集中达到了每秒45帧的检测速度。

二、YOLOv1算法基于整个输入图像进行检测而非基于局部进行推断,这使其背景误检率只有13.6%,远小于YOLO推出前已有的两阶段目标检测算法。

但是YOLOv1也有很大的缺点:

一、精度相对较差。在VOC 2007上的精确性只有63.4%,低于同时期的Faster R-CNN[14]等两阶段目标检测算法,也低于一阶段SSD[18]。

二、对于成群的小目标、多个相邻的目标或具有异常尺寸的目标检测效果较差。

2.1.2 YOLOv2

在YOLOv1基础上,Redmon等人提出了改进的YOLOv2[19],做出了以下改进:

一、利用大型分类数据集ImageNet[20]扩大目标检测的数据种类,可以检测9000种类别的目标(YOLOv120种);

二、引入批量归一化[21],让网络提高了收敛性;

三、借鉴RPN[17]的先验框,有先验知识,预测更快;

四、用k-means聚类算法,得到YOLO2的先验框,将预测的偏移量限制在一个网格范围内,模型更稳定;

五、多尺度输入图像进行训练FCN网络[22],不固定输入大小;

六、提出新的主干网络Darknet-19,参考了VGG[23]等,具有较少的参数和计算量,平衡计算速度和精度,在训练过程中具有较高的准确率和收敛速度;

七、YOLOv2提出一种联合训练机制,混合来自检测和分类数据集的图像进行训练。

此外在YOLOv2上,Yechan Yu等人[24]使用轻量级嵌入式GPGPU环境实现Tiny-YOLO2的优化设计参数。

2.1.3 YOLOv3

在YOLOv2的基础上,原作者很快又提出了YOLOv3[25],其改进点如下:

一、主干网络提出了Darknet-53,去掉了池化层,特征图的缩小通过增加卷积核的步长实现,基本采用全卷积,另外引入了残差模块[26]

二、利用多尺度特征进行对象检测,对于小目标的检测有了一定的提升;

三、类别预测方面主要是将原来的单标签分类改进为多标签分类。

在YOLOv3基础上:HORZYK A等人[27]提出了一种新的后处理方法,称为“加权置信中心选择”;基于通信信号检测和图像目标检测之间的相似性LI R等人[28]提出一种通用的、新颖的盲检测方法,改进YOLOv3模型;LONG X提出PP-YOLO[29]使用新的锚点自由范式——点聚合以及新的骨干网络SPP-net来平衡检测进度与速度,随后他们在PP-YOLO上做出一些细节上的更新推出了更好的PP-YOLO2[30];HE X等人[31-32]使用轻量级特强骨干网络提升模型性能。

2.1.4 YOLOv4

BOCHKOVSKIY A 等人[33]提出了YOLOv4,相对于YOLOv3其主要改进点如下:

一、数据增强借鉴CutMix[34],提出了Mosaic方法;使用DropBlock正则化[35], 有助于避免过拟合。

二、对主干网络Darknet-53改进,借鉴CSPNet[36],减少了模型的参数量和FLOPS数值,保证了推理速度和准确率。

三、颈部结构中采用了SPP[37]增加主干网络感受野,借鉴PANet[38],将用于融合的addition方法改为concatenation方法。

四、损失函数部分,使用CIoU损失函数[39]代替了MSE。

在YOLOv4上:WANG C Y等人[40]以YOLOv4-CSP为基线模型,利用隐形知识进行改进得到YOLOR。

2.1.5 YOLOv5

Ultralytics公司在Github上推出了YOLOv5,YOLOv5并没有过多的创新,其主要优点在以下:

一、多种网络架构使用起来更加灵活,模型尺寸非常轻量级,准确率与YOLOv4基准相当。

二、PyTorch框架用户友好,代码易读,融合了大量计算机视觉技术,有利于学习和参考。

三、环境配置简单,模型训练非常快,批量推理实时出结果。

在YOLOv5上:WANG H等人[41]提出DDH-YOLOv5引入双IoU感知解耦头,将分类任务和回归任务分开处理;基于2D局部特征叠加自注意力机制LI W与HUANG[42]提出改进的YOLOSA目标检测算法;LIU H等人[43]使用改进的特征融合模式得到SF-YOLOv5模型,提高了对小目标物体的检测。

2.1.6 YOLOX

GE Z等人[44]在YOLOv3的基础上提出了YOLOX,通过使用各种训练技巧,得到YOLOX-Darknet53。YOLOX还具备Yolox-s、Yolox-m、Yolox-l、Yolox-x系列,这些系列原理与YOLOV5的相同。其改进如下:

  • 引入解耦检测头,提高检测精度。

二、数据增强方面使用Mosaic和Mixup[45]。

三、采用无锚检测,并在样本匹配方面基于OTA[46]提出了SimOTA样本匹配算法。

受YOLOX启发,Shangliang Xu等人[47]推出了PP-YOLOE,同样采用无锚方法,并且提出新的RepResNet块用于构建骨干网络和颈部。

2.1.7 YOLOv6

YOLOv6[48]是美团视觉智能部研发的一款目标检测框架,致力于工业应用,其改进如下:

一、基于RepVGG[49]设计了可重参数化、更高效的骨干网络。

二、改进了PAN[38],提出了Rep-PAN颈部结构。

三、借鉴了YOLOX解耦头的结构。

四、使用自蒸馏方法[50]来浸透YOLOv6,其在分类和回归任务上都取得了好的效果。

五、使用动态调制的方式在训练的过程中让学生网络更高效的从教师网络中学习知识

六、引入再优化器 [51]和通道精馏[52]重新设计了目标检测的量化方式。

模型

mAP%

FPS

不使用TensorRT

使用TensorRT

YOLOv1

63.4

45

-

YOLOv2

78.6

67

-

YOLOv3

33

19.6

-

YOLOv4

43.5

65

-

YOLOv5

55.8

51.5

-

PP-YOLO

45.2

72.9

155.6

Scaled-YOLOv4

56

16

-

PP-YOLO2

50.3

50.3

87

YOLOX

51.2

57.8

-

PP-YOLOE

54.7

45

95.2

YOLOv6

52.5

-

98

YOLOv7

56.8

36

-

2.1.8 YOLOv7

WANG C Y等人[53]提出了YOLOv7,其整体结构类似YOLOv5,具体改进如下:

一、提出了基于ELAN的扩展版本E-ELAN,只改变了计算模块中的结构,而过渡层的结构则完全不变。

二、对于基于级联的模型,提出一种复合模型缩放方法。

三、提供一些可训练的免费包:模型重参化、标签分配等。

2.2 针对不同目标检测任务的YOLO算法

除了模型本身对于检测精度、检测速度以及模型复杂度等方面的改进,还有很多针对于不同应用场景进行的改进。以下简要介绍近3年出现的针对不同应用场景对YOLO系列算法进行改进的主要成果。

为了改善无人机、交通问题中小目标检测问题,HE X等人[31]通过使用与原网络不同的损失函数进行改善,而BETTI A等人[43, 54-58]针对网络结构中的模块进行修改。

面向口罩检测问题,为解决自然场景中的复杂因素的影响,YU J等人[59-62]选择改变骨干网络结构、增加注意力模块,QIN Z等人[63-64]利用现实口罩数据对网络重新训练CAO Z等人[65]选择融合不同损失函数。

应用于人体、人脸检测方面,NGUYEN H H等人[66-68]分别通过对骨干网络结构进行更改以达到实时人脸检测的需求,CHEN W等人[67]对锚框和损失函数进行更改使其提高大尺度人脸的检测精度,QI D等人[69]提出新的模块Stem、P6以及损失函数WingLoss使其可以适应不同尺度的人脸检测。

面向基于点云的3D目标检测需求,Hongpeng Tian等人[70]在Complex-YOLO[71]基础上设计扩张注意力模块以及构建平行倒置残差有效结合摄像头与雷达数据。

除了以上列举的应用方面,YOLO算法还在工业质检、医学影像分析等领域有所应用。

2.3 YOLO算法总结

基于YOLO算法出现的各种模型主要分为两个方面,一是从YOLO算法本身的性能出发,从表1可以发现YOLO系列提高检测精度和检测速度,使其达到最佳的精度与速度平衡性能而进行改进、创新得到新的模型,二是针对在不同领域的应用,对其进行修改使其适应特定领域的检测任务。

2.3.1 YOLO算法性能改进方法总结

一、数据增强方面,YOLO系列均使用基本数据增强技术:随机翻转、裁剪、旋转、缩放、平移、调节色度、饱和度、明度,从表2可知,此外从YOLOv4开始采用CutMix和Mosaic技术,之后模型主要在MixUp/CutMix、Mosaic以及CopyPast[72]各自做了选取。

二、骨干网络方面,从表2中可以看到不同的骨干网络。YOLOv1作者是在GoogLeNet[73]基础上稍作修改,YOLOv2作者提出了Darknet19,后续的YOLOv3在此基础上加深了网络得到Darknet53,YOLOv4对比VGG16[23]、ResNet-50[26]、SpineNet[74]、EfficientNet-B0/B7[75]、CSPResNeXt50[36]、CSPDarknet53[36]后选取了在COCO数据集上表现最好的CSPDarknet53,YOLOv5在Darknet53上加上了Focus块。因为ResNet

的出现与广泛应用,所以PP-YOLO和PP-YOLOv2选择了ResNet系列网络并加入可变形卷积网络以平衡性能。YOLOX在YOLOv5的基础略微修改。PP-YOLOE受ResNetCSPNet以及VoVNet[76]以及TreeNet[77]的影响提出RepResBlock,仿照ResNet构建 CSPRepResNetYOLOv6骨干网络参考RepVGGYOLOv7提出E-ELAN。对比可以发现模型的骨干网络的改变主要是结合当前最新受欢迎的网络结构,并且通过实验对比选取最好的网络结构。

模型

骨干网络

Anchor

YOLOv1

GoogLeNet

YOLOv2

Darknet19

YOLOv3

Darknet53

YOLOv4

CSPDarknet53

YOLOv5

CSPDarknet53+Focus

PP-YOLO

ResNet50-vd-dcn

Scaled

YOLOv4

CSPDarknet53

PP-YOLO2

ResNet101-vd-dcn

YOLOX

Modified CSP v5

PP-YOLOE

CSPRepResNet

YOLOv6

EfficientRep

YOLOv7

RepConvN

三、Anchor机制方面,从表2可以发现从YOLOv2开始引进Anchor机制,但在YOLOX及之后的模型又将其去除,主要原因是因为基于Anchor的方法增加了太多参数且泛化性不好。

四、其他方面,Scaled-YOLOv4和YOLOv7通过模型缩放以适应不同硬件设备的需求,YOLOv5和YOLOv6注重工程应用,YOLOR、PPYOLOE和YOLOv7关注了标签分配规则。

2.3.2 YOLO算法在不同领域应用的总结

对比YOLO算法在不同领域的应用,可以发现其变化主要是从检测目标本身的特征出发,并结合该检测目标的专业背景做出针对性改变,常用的方法就是加入注意力模块,以及修改损失函数。

3 总结与展望

      近年来,研究者们改进YOLO算法以及十分成熟,得到大量成果。但是随着深度学习网络的持续发展,YOLO算法作为一阶段目标检测的代表也仍然还有发展的空间。通过对YOLO算法演变以及其广泛应用的简单总结,将其拓展到整个深度学习目标检测算法的发展上,今后的基于深度学习的目标检测研究工作可以从以下几个方面开展:

一、就YOLO的发展而言,数据增强技术、骨干网络、损失函数、标签分配、以及是否采用Anchor机制是主要的研究任务,就现阶段的研究成果而言,这也是未来一段时间仍需持续关注的方向。

二、对于目标检测算法的细节上的把控,如数据增强方法的搭配、激活函数的选取、网络结构的调整等主要是通过经验进行选择再通过实验对比确定最佳搭配,但是从长远的发展来看,需要将这些经验进行分析得到规律,并且结合深度学习可解释性的发展,将目标检测网络进行可解释性分析,从而更精准地实现算法的优化。

三、为了实现工业化应用,算法应该提高其迁移能力,使其快速适应不同领域的使用。结合不同领域的专业知识,以及检测目标的特点,作针对性算法设计如加入注意力模块。

四、硬件适应方面,YOLO模型将进一步跨越硬件平台,从物联网设备到高性能计算集群。这种适应性将使YOLO模型能够在各种情况下部署,这取决于应用程序的要求和限制。此外,通过定制模型以适应不同的硬件规格,YOLO可以被更多的用户和行业所接受和使用。

参考文献

  1. Zou Zhengxia Zou, Chen Keyan, Shi Zhenwei, et al. Object detection in 20 years: a survey[J]. Proceedings of the IEEE, 2023, 111(3): 257-276
  2. Kern D, Mastmeyer A. 3D bounding box detection in volumetric medical image data: a systematic literature review[C]//2021 IEEE 8th International Conference on Industrial Engineering and Applications (ICIEA). Piscataway, NJ: IEEE, 2021: 509-516.
  3. Jiao Licheng, Zhang Fan, Liu Fang, et al. A survey of deep learning-based object detection[J]. IEEE Access, 2019, 7: 128837-128868.
  4. Zaidi S S A, Ansari M S, Aslam A, et al. A survey of modern deep learning based object detection models[J]. Digital Signal Processing, 2021, 126: 103514
  5. Alaba S Y, Ball J E. A survey on deep-learning-based LiDAR 3D object detection for autonomous driving[J], Sensors, Multidisciplinary Digital Publishing Institute, 2022, 22(24): 9577
  6. Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001. Piscataway, NJ: IEEE, 2001: I-I
  7. Dalal N, Triggs B, 2005. Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR2005. Piscataway, NJ: IEEE, 2005: 886-893
  8. Felzenszwalb P, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8
  9. Zhao Zhongqiu, Peng Zheng, Xu Shoutao, et al. Object detection with deep learning: A review[J]. IEEE transactions on neural networks and learning systems, 2019, 30(11): 3212-3232.
  10. Shao FeiFei, Chen Long, Shao Jian, et al. Deep learning for weakly-supervised object detection and localization: a survey[J]. Neurocomputing, 2022, 496: 192-207
  11. Li Zheng, Wang YongCheng, Zhang Ning, et al. Deep learning-based object detection techniques for remote sensing images: A survey[J]. Remote Sensing, 2022, 14(10): 2385-2385.
  12. Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 580-587
  13. Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1440-1448
  14. Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149
  15. Cai Zhaowei, Vasconcelos N.Cascade R-CNN: delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018:6154-6162
  16. Pang Jiangmiao, Chen Kai, Shi Jianpeng, et al. Libra R-CNN: towards balanced learning for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 821-830
  17. Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016:779-788
  18. Liu Wei, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]// Computer Vision–ECCV 2016. ECCV 2016. Cham, Switzerland: Springer, 2016: 21-37
  19. Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6517-6525
  20. Russakovsky O, Deng Jia, Su Hao, et al. ImageNet large Scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
  21. Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. France: JMLR.org, 2015:448-456.
  22. Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211–252.
  23. Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. CoRR, 2014.
  24. Yu Yechan, Kim D, Ha J, et al. Optimal design parameters for tiny-YOLO2 implementation with light-weight embedded GPGPU environment[C]//Advanced Multimedia and Ubiquitous Engineering. Singapore: Springer, 2020: 36-43
  25. Redmon J, Ali F. YOLOv3: An incremental improvement[OL]. [2023-04-17]. http://arxiv.org/abs/1804.02767
  26. He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770–778
  27. Horzyk A, Ergün E. YOLOv3 Precision improvement by the weighted centers of confidence selection[C]//2020 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2020:1-8.
  28. Li Rundong, Hu Jianhao, Li Shaoqing, et al. Blind detection of communication signals based on improved YOLO3[C]//2021 6th International Conference on Intelligent Computing and Signal Processing. c, 2021:424-429
  29. Long Xiang, Deng Kaipeng, Wang Guanzhong, et al. PP-YOLO: An effective and efficient implementation of object detector[OL]. [2023-04-22]. http://arxiv.org/abs/2007.12099
  30. Huang Xin, Wang Xinxin, Lv Wenyu, et al. PP-YOLOv2: A Practical Object Detector[OL]. [2023-04-22].  http://arxiv.org/abs/2104.10419
  31. He Xiaowei, Cheng Rao, Zheng Zhonglong, et al. Small object detection in traffic scenes based on YOLO-MXANet[J]. Sensors, 2021, 21(21): 7422
  32. Hurtik, P., Molek, V., Hula, J. et al. Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3 [J]. Neural Computing and Applications, 2022, 34(10): 8275–8290.
  33. Bochkovskiy A, Wang Chienyao, Liao Hongyuan Mark. YOLOv4: Optimal speed and accuracy of object detection[OL]. [2023-04-17]. http://arxiv.org/abs/2004.10934
  34. Yun S, Han D, Chun S, et al. CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features[C]//2019 IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2019: 6022-6031
  35. Ghiasi G, Lin Tsung-Yi, Le Q V. DropBlock: A regularization method for convolutional networks [C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2018: 10750-10760
  36. Wang Chien-Yao, Liao Hong-Yuan Mark, Wu Yueh-Hua, et al. CSPNet: A new backbone that can enhance learning capability of cnn. [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2020: 1571-1580
  37. K. He, X. Zhang, S. Ren and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916
  38. Liu Siu, Qi Lu, Qin Haifang, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018:8759-8768.
  39. Zheng Zhaohui, Wang Ping, Ren Dongwei, et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation[J]. IEEE Transactions on Cybernetics, 2021, 52(8): 8574-8586
  40. Wang Chienyao, Yeh I H, Liao Hongyuan Mark. You Only Learn One Representation: Unified Network for Multiple Tasks[OL]. [2023-05-17]. http://arxiv.org/abs/2105.04206
  41. Wang Hui, Jin Yang, Ke Hongchang, et al. DDH-YOLOv5: improved YOLOv5 based on double IoU-aware decoupled head for object detection[J]. Journal of Real-Time Image Processing, 2022, 19(6): 1023-1033
  42. Li Weisheng, Huang Lin. YOLOSA: object detection based on 2D local feature superimposed self-attention[J]. Pattern Recognition Letters, 2022, 168: 86-92
  43. Zhu Xingkui, Lyu Shuchang, Wang Xu, et al. TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios[C]//2021 IEEE/CVF International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE, 2021: 2778-2788.
  44. Ge Zheng, Liu Songtao, Wang Feng, et al. YOLOX: Exceeding YOLO Series in 2021[OL]. [2023-04-19]. http://arxiv.org/abs/2107.08430
  45. Zhang Hongyi, Cisse M, Dauphin Y N, et al. Mixup: Beyond empirical risk minimization[OL]. [2023-04-22]. https://arxiv.org/abs/1710.09412v2
  46. Ge Zheng, Liu Songtao, Li Zeming, et al. OTA: Optimal Transport Assignment for Object Detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 303-312.
  47. Xu Shangliang, Wang Xinxin, Lv Wenyu, et al. PP-YOLOE: An evolved version of YOLO[OL]. [2023-04-19]. http://arxiv.org/abs/2203.16250
  48. Li Chuyi, Li Lulu, Jiang Hongliang, et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[OL]. [2023-04-19]. http://arxiv.org/abs/2209.02976
  49. Ding Xiaohan, Zhang Xiangyu, Ma Ningning, et al. RepVGG: Making VGG-style convnets great again[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 13733–13742
  50. Zhang Linfeng, Song Jiebo, Gao Anni, et al. Be your own teacher: Improve the performance of convolutional neural networks via self distillation[C]//2019 IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2019: 3712-3721
  51. Ding Xiaohan, Chen Honghao, Zhang Xiangyu, et al. Re-parameterizing your optimizers rather than architectures[OL]. [2023-04-22]. http://arxiv.org/abs/2205.15242
  52. Shu Changyong, Liu Yifan, Gao Jianfei, et al. Channel-wise Knowledge Distillation for Dense Prediction[C/]//2021 IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2021: 5291-5300
  53. Wang Chien-Yao, Bochkovskiy A, Liao Hong-Yuan Mark. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[OL]// [2023-04-10]. https://arxiv.53yu.com/abs/2207.02696v1
  54. Sahin O, Ozer S. YOLODrone: Improved YOLO architecture for object detection in drone images[C]//2021 44th International Conference on Telecommunications and Signal Processing. Piscataway, NJ: IEEE, 2021: 361-365
  55. Liu Haiying, Sun Fengqian, Gu J, et al. SF-YOLOv5: A Lightweight Small Object Detection Algorithm Based on Improved Feature Fusion Mode[J]. Sensors, 2022, 22(15): 5817
  56. Benjumea A, Teeti I, Cuzzolin F, et al. YOLO-Z: Improving small object detection in YOLOv5 for autonomous vehicles[OL]. [2023-04-23]. http://arxiv.org/abs/2112.11798
  57. Li Kaihui, Zhuang Yuan, Lai Jinling, et al. PFYOLOv4: An improved small object pedestrian detection algorithm[J]. IEEE Access, 2023, 11: 17197-17206
  58. Betti A. A lightweight and accurate YOLO-like network for small target detection in Aerial Imagery[J]. Sensors, 2023, 23(4): 1865.
  59. Yu Jimin, Zhang Wei, 2021. Face mask wearing detection algorithm based on improved YOLO-v4[J]. Sensors, 2021, 21(9): 3263
  60. Kumar A, Kalia A, Verma K, et al. Scaling up face masks detection with YOLO on a novel dataset[J]. Optik, 2021, 239: 166744.
  61. Guo Shuyi, Li Lulu, Guo Tianyou, et al. Research on Mask-Wearing Detection Algorithm Based on Improved YOLOv5[J]. Sensors, 2022, 22(13): 4933.
  62. Kwaghe O P, Gital A Y, Madaki A G, et al. A deep learning approach for detecting face mask using an improved Yolo-V2 with squeezenet[C]//2022 IEEE 6th Conference on Information and Communication Technology. Piscataway, NJ: IEEE, 2022: 1-5
  63. Qin Zhaoxiang, Zheng Guo, Yuzhe Lin. An implementation of face mask detection system based on YOLOv4 architecture[C]//2022 14th International Conference on Computer Research and Development. Piscataway, NJ: IEEE, 2022: 207-213.
  64. Abbasi S, Abdi H, Ahmadi A. A face-mask detection approach based on YOLO applied for a new collected dataset[C]//2021 26th International Computer Conference, Computer Society of Iran. Piscataway, NJ: IEEE, 2021: 1-6
  65. Cao Zhicheng, Li Wenlong, Zhao Heng, et al. YoloMask: An enhanced YOLO model for detection of face mask wearing normality, irregularity and spoofing[C]//Biometric Recognition. Cham, Switzerland: Springer, 2022: 205-213
  66. Nguyen H H, Ta T N, Nuyen N C, et al. YOLO based real-time human detection for smart video surveillance at the edge[C]//2020 IEEE Eighth International Conference on Communications and Electronics. Piscataway, NJ: IEEE, 2021: 439-444.
  67. Chen Weijun, Huang Hongbo, Peng Shuai, et al. YOLO-face: a real-time face detector[J]. The Visual Computer, 2021, 37(4): 805-813
  68. Boudjit K, Ramzan N. Human detection based on deep learning YOLO-v2 for real-time UAV applications[J]. Journal of Experimental & Theoretical Artificial Intelligence, 2022, 34(3): 527-544
  69.  Qi Delong, Tan Weijun, Yao Qi, et al. YOLO5Face: Why Reinventing a Face Detector[C]//Computer Vision – ECCV 2022 Workshops. Cham, Switzerland: Springer, 2022: 228-244
  70. Tian Hongpeng, Guo Lunlun. JYOLO: Joint point cloud for autonomous driving 3D object detection[C]//2022 IEEE International Conference on Signal Processing, Communications and Computing. Piscataway, NJ: IEEE, 2022: 1-4.
  71. Simon M, Milz S, Amende K, et al. Complex-YOLO: Real-time 3D object detection on point clouds[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway. NJ: IEEE, 2018: 1190-1199
  72. Ghiasi G, Cui Y, Srininas A, et al. Simple copy-paste is a strong data augmentation method for instance segmentation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway. NJ: IEEE, 2021: 2917-2927
  73. Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognitio. Piscataway. NJ: IEEE, 2015: 1-9
  74. Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, et al. SpineNet: Learning scale-permuted backbone for recognition and localization[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway. NJ: IEEE, 2020: 11589-11598.
  75. Tan Mingxing and Quoc V L. EfficientNet: Rethinking model scaling for convolutional neural networks.[C]//Proceedings of the 36th International Conference on Machine Learning. New York: PMLR, 2019: 6105-6114
  76. Youngwan L, Joong-won H, Sangrok L, et al. An energy and gpu-computation efficient backbone network for real-time object detection [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway. NJ: IEEE, 2019: 752-760
  77. Rao Lu. Treenet: A lightweight one-shot aggregation convolutional network[OL]. [2023-06-09]. http://arxiv.org/abs/2109.12342

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值