深入理解【DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection】

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

URL: https://arxiv.org/abs/2203.03605

DETR系列模型缺点:

  • 收敛速度慢
  • Query显式意义不清晰

针对上述缺点,

  • DAB将query设定为anchor(x, y,w,h)增强解释性,加快收敛。
  • DN-DETR提出匈牙利匹配的不稳定性(每层匹配结果都不一样,导致同一个query预测不同GT)是收敛慢的主要原因。通过加入去噪训练,绕过匈牙利匹配,单纯训练模型框回归能力,加快收敛速度。
  • Deformable DETR引入多尺度可变形注意力加快模型收敛;引入参考点,使得双阶段训练和迭代框优化可以实现。

DINO创新点:
(在DN-DETR、DAB-DETR、Deformable DETR上进行改进,在COCO test-dev验证集上达到63.3.)

  • 对于去噪训练,将有噪声的真值框分为有效和无效两部分,分别预测真值和no-class。赋予模型去除冗余框、拒绝较远query的能力。
  • 混合query选择策略,更好地初始化query。从encoder里面选择初始化框作为位置query(相当于two-stage proposal生成阶段),保留内容query为可学习向量,鼓励第一层解码器关注空间先验。
  • 向前看两次,当前层的框优化信息反向传播两层梯度。
  • 在Object365数据集上预训练SwinL,COCO目标检测精度达到63,SOTA。

整体模型:
像DAB-DETR一样,DINO的query由位置和内容两部分构成。
在这里插入图片描述

De-Noising training:
针对一帧图像,如果由N个GT,那么将会有2N个带有干扰的GT作为一组去噪训练的query输入,每一帧有多组。l1 and GIOU losses for box regression and focal loss for classification。该策略防止冗余框,教会模型拒绝较远的anchor。在这里插入图片描述

Mixed query selection:
DN-DETR和DAB-DETR使用可学习的anchor作为positional query,content query直接预设为0,训练完成后作为固定参数。 Deformable DETR同时学习positional query和content query,训练完成后作为静态Query。Deformable DETR的两阶段变体模型,positional query和content query都从encoder输出里选择topK个特征经过线性映射得到,这topK个特征同时经过检测头得到参考点。(问:是否应该是encoder特征得到参考点,参考点再经过位置编码和映射得到positional query?)
在这里插入图片描述
编码器输出的topK个特征用于初始化anchor框,作为positional query,保持content query为可学习向量,训练完成后作为static query (并非初始化0)。它可以帮助模型使用更好的位置信息来从编码器中汇集更全面的内容特性。

Look Forward Twice:
在这里插入图片描述
Bi’是detach后的参考点加偏移量,其计算loss影响当前层参数,bi(pred)是没有detach的参考点+偏移量的输出,其loss影响上一层参数。
消融实验结果:
在这里插入图片描述

每一个创新点涨0.5个点。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值