YOLOv10：实时端到端目标检测

禄亿萋

于 2024-09-02 09:45:32 发布

阅读量398

点赞数 11

文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/qq_44926214/article/details/141568984

版权

摘要

本文首先提出了一种基于一致性对偶指派的YOLO无NMS训练算法，该算法在保证训练性能的同时，降低了推理延迟。此外，本文还介绍了基于效率-精度驱动的YOLO整体模型设计策略。从效率和精度两个角度对YOLO的各个组件进行了全面优化，大大降低了计算开销，增强了性能。我们努力的成果是推出了新一代的YOLO系列，用于实时端到端目标检测，称为YOLOv 10。大量的实验表明，YOLOv 10在不同的模型尺度上都能达到最高的性能和效率。

网络

1.用于无NMS训练的一致的双重训练

在训练过程中，YOLO通常利用TAL 为每个实例分配多个阳性样本。采用一对多的分配方式，产生丰富的监控信号，有利于优化，获得上级性能。然而，它需要YOLO依赖于NMS后处理，这导致部署的次优推理效率。虽然以前的工作探索了一对一匹配来抑制冗余预测，但它们通常会引入额外的推理开销或产生次优性能。在这项工作中，提出了一个无NMS的训练策略的YOLO与双标签分配和一致的匹配度量，实现了高效率和竞争力的性能。

双标签分配：与一对多分配不同，一对一匹配只为每个地面实况分配一个预测，避免了NMS后处理。然而，它导致监督不力，导致次优精度和收敛速度。幸运的是，这种不足可以通过一对多分配来弥补。为了实现这一点，引入了YOLO的双标记分配，以联合收割机结合两种策略的优点。具体如图2(a)所示：为YOLO加入了另一个一对一的头。它保留了与原始一对多分支相同的结构并采用相同的优化目标，但利用一对一匹配来获得标签分配。在训练过程中，两个头部与模型共同优化，让骨干和颈部享受到一对多分配所提供的丰富监督。在推理过程中，丢弃了一对多的头，并利用一对一的头来进行预测。这使YOLO能够用于端到端部署，而不会产生任何额外的推理成本。此外，在一对一匹配中，我们采用了前一个选择，这与匈牙利匹配具有相同的性能，但额外的训练时间更少。

一致的匹配度量：在分配过程中，一对一和一对多方法都利用度量来定量评估预测和实例之间的一致性水平。为了实现两个分支的预测感知匹配，采用统一的匹配度量，即，

其中p是分类得分，b表示预测和实例的边界框。s表示空间先验，指示预测的锚点是否在实例内。α和β是两个重要的超参数，它们平衡了语义预测任务和位置回归任务的影响。将一对多和一对一度量分别表示为mo2m=m（αo2m，βo2m）和mo2o=m（αo2o，βo2o）。这些度量影响两个头的标签分配和监督信息。

在双标签分配中，一对多分支提供比一对一分支丰富得多的监控信号。直观地说，如果能够协调一对一和一对多磁头的监督，可以朝着一对多磁头的优化方向优化一对一磁头。因此，一对一的头可以在推理期间提供改进的样本质量，从而带来更好的性能。为此，先分析一下两头的监管差距。由于训练过程中的随机性，在开始时使用两个头部初始化相同的值并产生相同的预测，即，一对一头部和一对多头部为每个预测实例对生成相同的p和IoU。注意到，两个分支的回归目标并不冲突，因为匹配的预测共享相同的目标，而不匹配的预测被忽略。因此，监管差距在于分类目标不同。给定一个实例，将其最大的带有预测的IoU表示为u，最大的一对多和一对一匹配得分分别表示为mo2m和mo2o。假设一对多分支产生正样本，并且一对一分支选择具有度量mo2o的第i个预测，i=mo2o，那么可以导出分类目标to2m，j=u·mo2m，j /mo2m ≤ u，对于j ∈ o，以及to 2 o，i=u·mo 2 o，i /m o2o =u，因此，两个分支之间的监管差距可以通过不同分类目标的1-Wasserstein距离得出，即，

可以观察到，随着到to2m，i的增加，差距减小，即，i在Ω内排名较高。当t = 2 m，i=u时达到最小值，即，i是最好的阳性样本，如图2所示。（一）.为了实现这一点，提出了一致匹配度量，即，α O_2O =R · α O_2M，β O_2O =R · β O_2M，即Mo_2O =MR O_2M。因此，一对多头部的最佳正样本也是一对一头部的最佳正样本。因此，两个磁头可以一致且和谐地优化。为了简单起见，默认取r=1，即，α o 2 o =α o 2 m和β o 2 o =β o 2 m。为了验证改进的监督对齐，我们在训练后计算一对多结果的前1 / 5 / 10中的一对一匹配对的数量。如图2(b)所示，在一致性匹配度量下，对齐得到改善。

2.整体效率-精度驱动的模型设计

除了后处理之外，YOLO的模型架构也对效率-准确性权衡提出了巨大挑战。虽然以前的作品探索了各种设计策略，对YOLO各部件的全面检查尚不完善。因此，该模型体系结构表现出不可忽略的计算冗余和受限的能力，这阻碍了其实现高效率和高性能的潜力。在这里，我们的目标是从效率和准确性的角度全面执行YOLO的模型设计。

2.1效率驱动的模型设计

YOLO中的组件包括主干、缩减采样层、具有基本构建块的级和头部。该设计方法计算量小，对其他三个部件进行了效率驱动的模型设计。

(1)轻量化分类头

分类头和回归头通常在YOLO中共享相同的架构。然而，它们在计算开销方面表现出显著的差异。例如，YOLOv 8-S中分类头（5.95G/1.51M）的FLOP和参数计数分别是回归头（2.34G/0.64M）的2.5倍和2.4倍。然而，在分析了分类误差和回归误差的影响之后（参见表6），回归头对YOLO绩效的影响更为显著。因此，可以减少分类头的开销，而不必担心对性能造成很大的损害。因此，简单地采用了一种轻量级的分类头结构，它由两个核大小为3×3的深度可分离卷积和一个1×1卷积组成。

(2)空间通道去耦下采样

YOLO通常利用步长为2的规则3×3标准卷积，同时实现空间下采样（从H×W到H/2 × W/2）和通道变换（从C到2C）。这就引入了不可忽略的计算量O（9/2 HWC^2）和参数个数O（18 C^2）。相反，提出将空间减少和通道增加操作解耦，从而实现更有效的下采样。具体地说，我们首先利用逐点卷积来调制信道尺寸，然后利用深度卷积来执行空间下采样。这将计算成本降低到O（2 HWC^2 + 9/2 HWC），并且将参数计数降低到O（2C^2 + 18 C）。同时，它还能在下采样期间最大限度地保留信息，从而在降低延迟的同时实现极具竞争力的性能。

(3)秩指导区组设计

YOLO通常在所有阶段采用相同的基本构件，例如：YOLOv 8中的瓶颈块。为了彻底检查YOLO的这种均匀设计，利用固有秩分析每一级的冗余度的平方。具体地说，计算每一级中最后一个基本块中的最后一个卷积的数值秩，该数值秩计数大于阈值的奇异值的数目。图3(a)提供了YOLOv 8的结果，表明深阶段和大型模型倾向于表现出更多的冗余。这一观察结果表明，简单地对所有级应用相同的模块设计对于最佳容量-效率折衷而言是次优的。为了解决这个问题，提出了一个秩引导的块设计方案，其目的是降低使用紧凑结构设计显示为冗余的级的复杂度。首先提出了一种紧凑的反转块（CIB）结构，该结构采用廉价的深度卷积进行空间混合，并采用低成本的逐点卷积进行信道混合，如图3(B)所示，它可以作为高效的基本构件。在此基础上，提出了一种基于排序的分块分配策略，以在保持竞争能力的前提下获得最佳效率。具体地说，给定一个模型，根据其内在等级按升序对其所有阶段进行排序。进一步考察了用CIB替换前导级基本块的性能变化。如果与给定模型相比没有性能下降，则继续进行下一级的替换，否则停止该过程。因此，可以跨阶段和模型规模实施自适应紧凑模块设计，在不影响性能的情况下实现更高的效率。

2.2精确度驱动的模型设计

在此基础上，进一步研究了精度驱动设计中的大核卷积和自注意，旨在以最小的代价提高性能。

(1)大核卷积

采用大核深度卷积是扩大感受野、增强模型性能的有效途径。然而，简单地在所有级中利用它们可能会在用于检测小对象的浅层特征中引入污染，同时也会在高分辨率级中引入显著的I/O开销和延迟。因此，本文利用CIB在深度级内的大内核深度方向卷积。具体地说，将CIB中第二个3×3深度卷积的核大小增加到7×7。此外，采用结构重参数化技术引入另一个3×3深度卷积分支来缓解优化问题，而无需推理开销。此外，随着模型大小的增加，其感受域自然地扩大，而使用大核卷积的益处逐渐减少。因此，只对小模型尺度采用大核卷积。

(2)部分自我注意（PSA）

自我注意，由于其显著的全局建模能力而被广泛应用于各种视觉任务中。然而，该算法具有较高的计算复杂度和内存占用。为了解决这一问题，根据普遍存在的注意头冗余，提出了一种高效的部分自注意（PSA）模块设计，如图3(c)所示。具体地说，在1×1卷积之后，将跨通道的特征均匀地划分为两部分。该算法仅将一部分信号送入由多头自注意模块（MHSA）和前馈网络（FFN）组成的NPSA模块。然后，通过1×1卷积将两个部分级联并融合。此外，将查询和键的维数分配为MHSA中值的一半，并将LayerNorm 替换为BatchNorm 以实现快速推理。此外，PSA仅被放置在具有最低分辨率的阶段4之后，避免了来自自注意的二次计算复杂度的过多开销。该方法以较低的计算代价将全局表示学习能力融入到YOLO模型中，提高了模型的性能.

禄亿萋

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
YOLOv10：实时端到端目标检测

本文首先提出了一种基于一致性对偶指派的YOLO无NMS训练算法，该算法在保证训练性能的同时，降低了推理延迟。此外，本文还介绍了基于效率-精度驱动的YOLO整体模型设计策略。从效率和精度两个角度对YOLO的各个组件进行了全面优化，大大降低了计算开销，增强了性能。我们努力的成果是推出了新一代的YOLO系列，用于实时端到端目标检测，称为YOLOv 10。大量的实验表明，YOLOv 10在不同的模型尺度上都能达到最高的性能和效率。
复制链接

扫一扫