摘要
https://arxiv.org/pdf/2405.14458
近年来,YOLO系列模型因其在计算成本与检测性能之间的有效平衡,在实时目标检测领域占据了主导地位。研究人员在YOLO的架构设计、优化目标、数据增强策略等方面进行了探索,并取得了显著进展。然而,YOLO在后处理阶段对非极大值抑制(NMS)的依赖阻碍了其端到端的部署,并对推理延迟产生了不利影响。此外,YOLO中各组件的设计缺乏全面和彻底的审查,导致明显的计算冗余,限制了模型的性能。这导致了次优的效率,并存在相当大的性能提升空间。
在这项工作中,我们的目标是同时从后处理和模型架构两个方面进一步推动YOLO的性能与效率的边界。为此,我们首先提出了针对YOLO的无NMS训练的一致性双重分配方法,该方法能够同时实现具有竞争力的性能和较低的推理延迟。此外,我们引入了针对YOLO的整体效率-精度驱动模型设计策略。我们从效率和精度两个角度对YOLO的各个组件进行了全面优化,这极大地减少了计算开销并增强了模型的能力。我们的努力成果是一个用于实时端到端目标检测的新一代YOLO系列模型,称为YOLOv10。广泛的实验表明,YOLOv10在各种模型规模下都达到了最先进的性能和效率。例如,在COCO数据集上,我们的YOLOv10-S在类似平均精度(AP)下比RT-DETR-R18快1.8倍,同时参数和浮点运算次数(FL