DEYO: DETR with YOLO for End-to-End Object Detection论文翻译

森爱。

已于 2024-03-07 15:25:41 修改

阅读量2.3k

点赞数 22

分类专栏：英文原文直译文章标签： YOLO 目标检测人工智能

于 2024-03-07 15:25:01 首次发布

本文链接：https://blog.csdn.net/qq_69854365/article/details/136524491

版权

DEYO：DETR与YOLO用于端到端目标检测

摘要

DETR的训练范式在很大程度上取决于在ImageNet数据集上预训练其骨干。然而，由图像分类任务和一对一匹配策略提供的有限监督信号导致DETR的预训练不充分的颈部。此外，在训练的早期阶段匹配的不稳定性会导致DETR的优化目标不一致。为了解决这些问题，我们设计了一种创新的培训方法，称为逐步培训。具体来说，在训练的第一阶段，我们采用一个经典的检测器，用一对多的匹配策略进行预训练，以初始化端到端检测器的主干和颈部。在训练的第二阶段，我们冻结了端到端检测器的主干和颈部，需要从头开始训练解码器。通过逐步训练的应用，我们引入了第一个利用纯卷积结构编码器的实时端到端对象检测模型，DETR with YOLO（DEYO）。在不依赖任何补充训练数据的情况下，DEYO在速度和准确性方面都超过了所有现有的实时对象检测器。此外，全面的DEYO系列可以使用单个8GB RTX 4060 GPU在COCO数据集上完成其第二阶段训练，大大降低了训练支出。源代码和预训练模型可在https://github.com/ouyanghaodong/DEYO上获得。

1.介绍

目标检测是计算机视觉领域的一项基本任务，其任务是精确定位和识别图像或视频中的各种目标类别。这项技术是许多计算机视觉应用的基石，包括自动驾驶、视频监控、面部识别和对象跟踪。近年来，深度学习的进步，特别是基于卷积神经网络（CNN）的方法[12]，已经在对象检测任务中取得了突破性的进展，成为该领域的主导技术。

DETR（Detection Transformer）[3]介绍了一种用于对象检测的端到端方法，包括CNN骨干，Transformer编码器和Transformer解码器。DETR采用匈牙利损失来预测一对一的对象集，从而消除了对非最大抑制（NMS）的手动调整组件的依赖，这通过端到端优化显着简化了对象检测管道。

尽管基于Transformers（DETR）的端到端对象检测器在性能方面取得了显著的成功，但这些检测器通常依赖于在ImageNet数据集上预训练其骨干网络。如果选择新的主干，则需要在训练DETR或使用现有的预训练主干之前在ImageNet上进行预训练。这种依赖性限制了设计主干的灵活性，并增加了开发成本，当任务数据集与ImageNet显著偏离时，这种预训练策略可能会导致特定数据集上DETR的次优微调结果。

此外，由于DETRs采用匈牙利匹配算法直接一对一的对象集预测，其解码器的复杂性是二次的输入序列的长度，在训练过程中接收直接监督信号的查询的数量基本上小于在经典的对象检测器使用一对多匹配策略。再加上图像分类任务的固有局限性，这导致DETR的颈部没有得到充分的预训练。此外，在DETR [3]训练的早期阶段，同一个查询经常在同一个图像中的不同时间与不同的对象匹配，导致优化过程既模糊又不稳定，从而破坏了预先训练的骨干。

为了应对上述挑战，我们引入了一种创新的培训模式，称为“分步培训”。这种方法从自定义数据集的预训练阶段开始，利用经典检测器进行对象检测任务，从而避免了对额外数据集的需求。随后，在训练的第二阶段中，采用在初始阶段期间通过一对多匹配细化的经典训练检测器的主干和颈部来初始化端到端检测器。在此阶段，端到端检测器的主干和颈部组件被冻结，允许从头开始对解码器进行专门的重新训练。与传统的DETR训练方法相比，逐步训练方法在性能上有显着的提高。同时，这种逐步训练大大降低了检测器的训练成本：第一阶段的训练只需16GB的VRAM即可完成，而第二阶段只需8GB的VRAM。

利用逐步训练方法，我们引入了第一个采用纯卷积架构作为编码器的实时端到端对象检测器，名为DETR [3]与YOLO [23-25]（DEYO）。具体来说，我们首先在自定义数据集上训练一个强大的YOLO对象检测模型，以初始化DEYO的主干和颈部。随后，我们将预训练的颈部与简单的特征投影相结合，以构建DEYO的轻量级解码器。由于在初始阶段为DEYO的脊柱和颈部提供了高质量的预训练，DEYO在速度和准确性方面超过了当代最先进的实时目标探测器。

DEYO-tiny在COCO [16] val 2017上实现了37.6%的AP，并在NVIDIA