论文翻译YOLOv4: Optimal Speed and Accuracy of Object Detection YOLOv4:目标检测的最佳速度和精度 论文中文翻译

                        摘要

有大量的特征被认为可以提高卷积神经网络(CNN)的精度。需要在大型数据集上对这些特性的组合进行实际测试,并对结果进行理论验证。某些特性在特定的建模中起决定性作用,而在特定的强制确定问题中起决定性作用,或仅适用于小规模数据集;而某些特性(如批处理规范化和剩余连接)则适用于大多数模型、任务和数据集。我们假设这些通用特征包括加权剩余连接(WRC)、跨阶段部分连接(CSP)、跨小批量规范化(CmBN)、自对抗训练(SAT)和Mish激活。我们使用了新功能:WRC、CSP、CmBN、SAT、误激活、马赛克数据增强、CmBN、DropBlockregularization和Ciouloss,并结合了artresults的实现:43.5%AP(65.7%AP50)用于MS COCO数据集,在Tesla V100上的实时速度为65 FPS。源代码位yolov4

1.介绍
大多数基于CNN的目标检测器大多只适用于推荐系统。例如,通过城市摄像机搜索免费停车位是由低精度模型执行的,而汽车碰撞警告则与高精度模型相关。通过提高实时目标检测的准确性,不仅可以将其用于提示生成推荐系统,还可以用于独立的过程管理和减少人工输入。在传统图形处理单元(GPU)上进行实时目标检测,可以以合理的价格大量使用。最精确的现代神经网络实时运行,需要大量的GPU,可用于大批量的训练。通过创建这样的问题,我们可以在传统的GPU上实时操作,而训练只需要一个传统的GPU。
图1:拟议的YOLOv4和其他最新物体探测器的比较。YOLOv4的运行速度比Ef-fientidet快两倍,性能相当。使YOLOv3的AP和FPS分别提高10%和12%。
图1:拟议的YOLOv4和其他最新物体探测器的比较。YOLOv4的运行速度比Ef-fientidet快两倍,性能相当。使YOLOv3的AP和FPS分别提高10%和12%。
这项工作的主要目标是设计生产系统中目标探测器的快速工作速度,并优化并行计算,而不是计算体积理论指示器(BFLOP)。我们希望所设计的对象可以很容易地训练和使用。例如,任何使用常规自动训练和测试的人都可以获得实时、高质量和令人信服的目标检测结果,如图1所示的YOLOv4结果。我们的贡献总结如下:1。我们开发了一个高效、强大的目标检测模型。它使每个人都可以使用1080tior2080tigpu来训练一个超快速和精确的目标探测器。2。在探测器培训过程中,我们验证了目标检测的特殊方法的最先进的冷冻沙袋袋的影响。三。我们修改了最新的方法,使之更有效,更适合于单一GPU训练,包括CBN[89]、PAN[49]、SAM[85]等。

2.相关工作

2.1.目标检测模型

现代探测器通常由两部分组成,一部分是在图像网上预先训练的主干,另一部分是用来预测物体类别和边界盒的头部。对于运行在GPU平台上的探测器,它们的主干可以是VGG[68]、ResNet[26]、ResNeXt[86]或DenseNet[30]。对于运行在CPU平台上的探测器,它们的主干可以是SqueezeNet[31]、MobileNet[28、66、27、74]或Shuf flenet[97、53]。头部一般分为一级目标探测器和两级目标探测器。最具代表性的两级目标检测器是R-CNN[19]系列,包括fast R-CNN[18]、faster R-CNN[64]、R-FCN[9]和Libra R-CNN[58]。也可以使两级对象检测器成为无锚对象检测器,例如RepPoints[87]。对于一级目标检测器,最有代表性的模型是YOLO[61、62、63]、SSD[50]和RetinaNet[45]。近年来,无锚单级目标探测器得到了发展。这类探测器有CenterNet[13]、CornerNet[37,38]、FCOS[78]等,近年来发展起来的目标探测器往往在主干和头部之间插入一些层,这些层通常用于收集不同阶段的特征图。我们可以称之为目标探测器的颈部。通常,颈部由几个自下而上的路径和几个自上而下的路径组成。具有这种机制的网络包括特征金字塔网络(FPN)[44]、路径聚合网络(PAN)[49]、BiFPN[77]和NAS-FPN[17]。
除上述模型外,一些研究者还将重点放在直接构建用于目标检测的新骨干网(DetNet[43]、DetNAS[7])或新的整体模型(SpineNet[12]、hitdector[20])。

综上所述,普通目标探测器由几个部分组成:

•输入:图像、补丁、图像金字塔

•主干网:VGG16[68]、ResNet-50[26]、SpineNet[12]、Ef ficientnet-B0/B7[75]、CSPResNeXt50[81]、CSPDarknet53[81]

•颈部:

•其他区块:SPP[25]、ASPP[5]、RFB[47]、SAM[85]

•路径聚合块:FPN[44]、PAN[49]、NAS-FPN[17]、完全连接的FPN、BiFPN[77]、ASFF[48]、SFAM[98]

•头部:

•反辐射(一级):

·RPN[64]、固态硬盘[50]、YOLO[61]、视网膜网[45](基于锚定)

·角网[37]、中心网[13]、矩阵网[60]、FCO[78](无锚)

•稀疏预测(两阶段):

◦更快的R-CNN[64],R-FCN[9],掩码RCNN[23](基于锚定)

·代表点[87](无锚)

2.2.免费赠品包

通常,传统的目标探测器是离线训练的。因此,研究者总是希望利用这一优势,开发出更好的训练方法,使目标检测器在不增加推理成本的情况下获得更好的精度。我们将这些只改变训练策略或只增加训练成本的方法称为“免费包”,对象检测方法通常采用的满足免费包定义的方法是数据增强。数据增强的目的是增加输入图像的可变性,使所设计的目标检测模型对来自不同环境的图像具有更高的鲁棒性。例如,光度畸变和几何畸变是两种常用的数据增强方法,它们有利于目标检测任务。在处理光度失真时,我们调整图像的亮度、对比度、色调、饱和度和噪声。对于几何失真,我们添加了随机缩放、裁剪、偏移和旋转。

上述数据增强方法均为逐像素调整,并且保留调整区域中的所有原始像素信息。此外,一些从事数据增强的研究者把重点放在模拟

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值