DINO， Grounding DINO, DINO-X系列工作解读

leo0308

已于 2025-04-25 18:19:41 修改

阅读量1.3k

点赞数 33

分类专栏：论文解读大模型目标检测和跟踪文章标签：开放世界目标检测多模态大模型大模型目标检测 LLM 短语定位

于 2025-03-05 20:00:38 首次发布

本文链接：https://blog.csdn.net/leo0308/article/details/146050834

版权

论文解读同时被 3 个专栏收录

29 篇文章

订阅专栏

大模型

21 篇文章

订阅专栏

目标检测和跟踪

17 篇文章

订阅专栏

1 DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 2022.03 IDEA Research, ICLR

DINO 是DETR with Improved deNoising anchOr boxes的缩写。 Meta也有系列工作命名为DINO, 但两者没有关系，要注意区分。
DINO 的主要贡献是在之前的DETR系列工作上提出了3点改进，从而提升了模型的性能和效率。这3点改进是:

对比去噪训练
anchor初始化的时候采用了混合查询的方法
box预测时的2次前向

模型整体框架：
在这里插入图片描述
对比去噪训练（CDN）：

混合查询方式：

两次前向：
在这里插入图片描述

2 Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 2023.03 IDEA Research, ECCV

Grouding DINO 这篇文章主要是为了做开放世界的目标检测，实现方式是把DINO和短语定位预训练任务结合。作者认为开集检测的核心是引入语言到闭集检测中。为有效融合语言和视觉模态，
把闭集检测器划分为3个阶段，并且在3个阶段都进行了融合，包括特征增强(neck)，语言引导的查询选择（query init）和跨模态解码器（head）。这也是区别其他方法的地方，其他方法一般在1到2个阶段进行融合。

在这里插入图片描述

在这里插入图片描述
模型结构：

模型设计上， image backbone 采用Swin Transformer, text backbone 采用Bert。

3 Grounding DINO 1.5: Advance the “Edge” of Open-Set Object Detection 2024.05 IDEA Research

这篇工作主要是在Grounding DINO的基础上进一步扩大了模型规模和数据规模。有2个版本的模型，分别是Pro和Edge, Pro主打效果好， Edge版本主打高性能，牺牲了一定的效果。
相比Grounding DINO, 主要是在密集场景检测，长尾目标检测和语义理解上有了很大改进，并且减少了幻觉（检测出图像中没有的prompt对象）。

4 DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding 2024.11 IDEA Research

这篇工作在扩展了更多的输入prompt，包括文本prompt, 视觉prompt和自定义prompt, 从而使得长尾目标检测更容易。并且作者构建了包含1亿个高质量样本的数据集。在如此大规模数据上预训练后，
DINO-X 具备了基础的目标级别的表征能力，可以支持多种目标感知和理解的任务，比如检测，分割，姿态估计，问答等等。

在这里插入图片描述

其中DINO和Grounding DINO 开源了部分代码和权重, 同时也提供了api。（最大的模型Swin-L未开放权重，推测api中使用的应该是Swin-L，实测api的效果比开源代码好很多。） Grounding DINO 1.5 和DINO-X 不开源，提供了api的方式使用，但api不是免费的，首次注册会有一定的赠送。
在这里插入图片描述