深入理解【DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection】

最新推荐文章于 2025-03-05 20:00:38 发布

qq_1624543793

最新推荐文章于 2025-03-05 20:00:38 发布

阅读量3.3k

点赞数 2

文章标签：目标检测计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_45484627/article/details/130888665

版权

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

URL: https://arxiv.org/abs/2203.03605

DETR系列模型缺点：

收敛速度慢
Query显式意义不清晰

针对上述缺点，

DAB将query设定为anchor（x, y,w,h）增强解释性，加快收敛。
DN-DETR提出匈牙利匹配的不稳定性（每层匹配结果都不一样，导致同一个query预测不同GT）是收敛慢的主要原因。通过加入去噪训练，绕过匈牙利匹配，单纯训练模型框回归能力，加快收敛速度。
Deformable DETR引入多尺度可变形注意力加快模型收敛；引入参考点，使得双阶段训练和迭代框优化可以实现。

DINO创新点：
（在DN-DETR、DAB-DETR、Deformable DETR上进行改进，在COCO test-dev验证集上达到63.3.）

对于去噪训练，将有噪声的真值框分为有效和无效两部分，分别预测真值和no-class。赋予模型去除冗余框、拒绝较远query的能力。
混合query选择策略，更好地初始化query。从encoder里面选择初始化框作为位置query（相当于two-stage proposal生成阶段），保留内容query为可学习向量，鼓励第一层解码器关注空间先验。
向前看两次，当前层的框优化信息反向传播两层梯度。
在Object365数据集上预训练SwinL，COCO目标检测精度达到63，SOTA。

整体模型：
像DAB-DETR一样，DINO的query由位置和内容两部分构成。
在这里插入图片描述

De-Noising training：
针对一帧图像，如果由N个GT，那么将会有2N个带有干扰的GT作为一组去噪训练的query输入，每一帧有多组。l1 and GIOU losses for box regression and focal loss for classification。该策略防止冗余框，教会模型拒绝较远的anchor。在这里插入图片描述

Mixed query selection:
DN-DETR和DAB-DETR使用可学习的anchor作为positional query，content query直接预设为0，训练完成后作为固定参数。 Deformable DETR同时学习positional query和content query，训练完成后作为静态Query。Deformable DETR的两阶段变体模型，positional query和content query都从encoder输出里选择topK个特征经过线性映射得到，这topK个特征同时经过检测头得到参考点。（问：是否应该是encoder特征得到参考点，参考点再经过位置编码和映射得到positional query？）
在这里插入图片描述
编码器输出的topK个特征用于初始化anchor框，作为positional query，保持content query为可学习向量，训练完成后作为static query （并非初始化0）。它可以帮助模型使用更好的位置信息来从编码器中汇集更全面的内容特性。