论文翻译YOLOv4: Optimal Speed and Accuracy of Object Detection YOLOv4:目标检测的最佳速度和精度论文中文翻译

最新推荐文章于 2022-04-02 15:50:16 发布

liushanshanshan

最新推荐文章于 2022-04-02 15:50:16 发布

阅读量1.9k

点赞数 2

分类专栏： yolov4 目标检测文章标签：神经网络计算机视觉算法 python tensorflow

本文链接：https://blog.csdn.net/liushanshanshan/article/details/106972481

版权

                        摘要

有大量的特征被认为可以提高卷积神经网络（CNN）的精度。需要在大型数据集上对这些特性的组合进行实际测试，并对结果进行理论验证。某些特性在特定的建模中起决定性作用，而在特定的强制确定问题中起决定性作用，或仅适用于小规模数据集；而某些特性（如批处理规范化和剩余连接）则适用于大多数模型、任务和数据集。我们假设这些通用特征包括加权剩余连接（WRC）、跨阶段部分连接（CSP）、跨小批量规范化（CmBN）、自对抗训练（SAT）和Mish激活。我们使用了新功能：WRC、CSP、CmBN、SAT、误激活、马赛克数据增强、CmBN、DropBlockregularization和Ciouloss，并结合了artresults的实现：43.5%AP（65.7%AP50）用于MS COCO数据集，在Tesla V100上的实时速度为65 FPS。源代码位yolov4

1.介绍
大多数基于CNN的目标检测器大多只适用于推荐系统。例如，通过城市摄像机搜索免费停车位是由低精度模型执行的，而汽车碰撞警告则与高精度模型相关。通过提高实时目标检测的准确性，不仅可以将其用于提示生成推荐系统，还可以用于独立的过程管理和减少人工输入。在传统图形处理单元（GPU）上进行实时目标检测，可以以合理的价格大量使用。最精确的现代神经网络实时运行，需要大量的GPU，可用于大批量的训练。通过创建这样的问题，我们可以在传统的GPU上实时操作，而训练只需要一个传统的GPU。

图1：拟议的YOLOv4和其他最新物体探测器的比较。YOLOv4的运行速度比Ef-fientidet快两倍，性能相当。使YOLOv3的AP和FPS分别提高10%和12%。
这项工作的主要目标是设计生产系统中目标探测器的快速工作速度，并优化并行计算，而不是计算体积理论指示器（BFLOP）。我们希望所设计的对象可以很容易地训练和使用。例如，任何使用常规自动训练和测试的人都可以获得实时、高质量和令人信服的目标检测结果，如图1所示的YOLOv4结果。我们的贡献总结如下：1。我们开发了一个高效、强大的目标检测模型。它使每个人都可以使用1080tior2080tigpu来训练一个超快速和精确的目标探测器。2。在探测器培训过程中，我们验证了目标检测的特殊方法的最先进的冷冻沙袋袋的影响。三。我们修改了最新的方法，使之更有效，更适合于单一GPU训练，包括CBN[89]、PAN[49]、SAM[85]等。

2.相关工作

2.1.目标检测模型

现代探测器通常由两部分组成，一部分是在图像网上预先训练的主干，另一部分是用来预测物体类别和边界盒的头部。对于运行在GPU平台上的探测器，它们的主干可以是VGG[68]、ResNet[26]、ResNeXt[86]或DenseNet[30]。对于运行在CPU平台上的探测器，它们的主干可以是SqueezeNet[31]、MobileNet[28、66、27、74]或Shuf flenet[97、53]。头部一般分为一级目标探测器和两级目标探测器。最具代表性的两级目标检测器是R-CNN[19]系列，包括fast R-CNN[18]、faster R-CNN[64]、R-FCN[9]和Libra R-CNN[58]。也可以使两级对象检测器成为无锚对象检测器，例如RepPoints[87]。对于一级目标检测器，最有代表性的模型是YOLO[61、62、63]、SSD[50]和RetinaNet[45]。近年来，无锚单级目标探测器得到了发展。这类探测器有CenterNet[13]、CornerNet[37,38]、FCOS[78]等，近年来发展起来的目标探测器往往在主干和头部之间插入一些层，这些层通常用于收集不同阶段的特征图。我们可以称之为目标探测器的颈部。通常，颈部由几个自下而上的路径和几个自上而下的路径组成。具有这种机制的网络包括特征金字塔网络（FPN）[44]、路径聚合网络（PAN）[49]、BiFPN[77]和NAS-FPN[17]。
除上述模型外，一些研究者还将重点放在直接构建用于目标检测的新骨干网（DetNet[43]、DetNAS[7]）或新的整体模型（SpineNet[12]、hitdector[20]）。

综上所述，普通目标探测器由几个部分组成：

•输入：图像、补丁、图像金字塔

•主干网：VGG16[68]、ResNet-50[26]、SpineNet[12]、Ef ficientnet-B0/B7[75]、CSPResNeXt50[81]、CSPDarknet53[81]

•颈部：

•其他区块：SPP[25]、ASPP[5]、RFB[47]、SAM[85]

•路径聚合块：FPN[44]、PAN[49]、NAS-FPN[17]、完全连接的FPN、BiFPN[77]、ASFF[48]、SFAM[98]

•头部：

•反辐射（一级）：

·RPN[64]、固态硬盘[50]、YOLO[61]、视网膜网[45]（基于锚定）

·角网[37]、中心网[13]、矩阵网[60]、FCO[78]（无锚）

•稀疏预测（两阶段）：

◦更快的R-CNN[64]，R-FCN[9]，掩码RCNN[23]（基于锚定）

·代表点[87]（无锚）

2.2.免费赠品包

通常，传统的目标探测器是离线训练的。因此，研究者总是希望利用这一优势，开发出更好的训练方法，使目标检测器在不增加推理成本的情况下获得更好的精度。我们将这些只改变训练策略或只增加训练成本的方法称为“免费包”，对象检测方法通常采用的满足免费包定义的方法是数据增强。数据增强的目的是增加输入图像的可变性，使所设计的目标检测模型对来自不同环境的图像具有更高的鲁棒性。例如，光度畸变和几何畸变是两种常用的数据增强方法，它们有利于目标检测任务。在处理光度失真时，我们调整图像的亮度、对比度、色调、饱和度和噪声。对于几何失真，我们添加了随机缩放、裁剪、偏移和旋转。

上述数据增强方法均为逐像素调整，并且保留调整区域中的所有原始像素信息。此外，一些从事数据增强的研究者把重点放在模拟

最低0.47元/天解锁文章

liushanshanshan

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文翻译YOLOv4: Optimal Speed and Accuracy of Object Detection YOLOv4:目标检测的最佳速度和精度论文中文翻译

摘要有大量的特征被认为可以提高卷积神经网络（CNN）的精度。需要在大型数据集上对这些特性的组合进行实际测试，并对结果进行理论验证。某些特性在特定的建模中起决定性作用，而在特定的强制确定问题中起决定性作用，或仅适用于小规模数据集；而某些特性（如批处理规范化和剩余连接）则适用于大多数模型、任务和数据集。我们假设这些通用特征包括加权剩余连接（WRC）、跨阶段部分连接（CSP）、跨小批量规范化（CmBN）、自对抗训练（SAT）和Mish激活。我们使用了新功能：WR...
复制链接

扫一扫