【目标检测】《DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection》论文阅读笔记

DINO是DETR的改进版,通过对比去噪训练、混合查询选择和两次前向预测提升目标检测性能。在COCO-testdev上达到63.3AP,成为2022年3月的最优模型。DINO减少了预训练数据需求,同时提高了模型精度和效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址:https://arxiv.org/pdf/2203.03605v1.pdf

代码地址:https://github.com/IDEACVR/DINO

计划:这周阅读本论文。

1.摘要

DINO是DETR with Improved deNoising anchOr boxes这几个单词的缩写,意思是提高降噪锚框的DETR。DINO通过使用对比去噪训练方法、锚初始化的混合查询选择方法和盒预测的前向两次方案,在性能和效率上改进了以前的DETR-like模型。

以Objects365数据上预训练的SwinL backbone模型基础上训练,在COCO-testdev达到63.3AP的性能。(2022/3/13性能仍为现在的第一名)下面是paper with code下面的结果。

### DINO Model Based on Transformer for End-to-End Object Detection DINO (DETR with Improved Denoising Anchor Boxes) 是一种基于 Transformer 的端到端目标检测框架,旨在改善传统 DETR 模型中存在的收敛速度慢以及检测精度不足等问题[^2]。 #### 改进的去噪锚框机制 为了提升模型性能并加速训练过程,DINO 引入了一种新的去噪锚框策略。这种技术通过引入虚拟噪声样本作为辅助学习信号来增强模型对于真实物体边界框位置的学习能力。具体来说,在训练阶段会随机生成一些带有轻微偏移的真实标签副本,并将其混入原始数据集中用于监督训练;而在推理过程中则仅依赖于干净的目标标注信息完成预测任务。 #### 高效解码结构设计 除了创新性的前向传播算法外,DINO 还特别注重编码器之后部分的设计——即如何有效地从全局特征图中提取局部区域描述子进而实现精准定位与分类。为此,研究者们精心构建了一个多尺度融合模块配合动态卷积层共同作用以获得更佳的感受野范围覆盖度和平滑过渡特性,从而显著提高了最终输出质量。 ```python import torch.nn as nn class DINODecoder(nn.Module): def __init__(self, d_model=256, nhead=8, num_decoder_layers=6): super().__init__() decoder_layer = nn.TransformerDecoderLayer(d_model=d_model, nhead=nhead) self.decoder = nn.TransformerDecoder(decoder_layer, num_decoder_layers) def forward(self, tgt, memory, tgt_mask=None, memory_mask=None, tgt_key_padding_mask=None, memory_key_padding_mask=None): output = self.decoder(tgt=tgt, memory=memory, tgt_mask=tgt_mask, memory_mask=memory_mask, tgt_key_padding_mask=tgt_key_padding_mask, memory_key_padding_mask=memory_key_padding_mask) return output ```
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

聿默

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值