DINO, Grounding DINO, DINO-X系列工作解读

1 DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 2022.03 IDEA Research, ICLR

DINO 是DETR with Improved deNoising anchOr boxes的缩写。 Meta也有系列工作命名为DINO, 但两者没有关系, 要注意区分。
DINO 的主要贡献是在之前的DETR系列工作上提出了3点改进, 从而提升了模型的性能和效率。 这3点改进是:

  1. 对比去噪训练
  2. anchor初始化的时候采用了混合查询的方法
  3. box预测时的2次前向

模型整体框架:
在这里插入图片描述
对比去噪训练(CDN):
在这里插入图片描述
混合查询方式:
在这里插入图片描述

两次前向:
在这里插入图片描述

2 Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 2023.03 IDEA Research, ECCV

Grouding DINO 这篇文章主要是为了做开放世界的目标检测,实现方式是把DINO和短语定位预训练任务结合。作者认为开集检测的核心是引入语言到闭集检测中。为有效融合语言和视觉模态,
把闭集检测器划分为3个阶段, 并且在3个阶段都进行了融合, 包括特征增强(neck), 语言引导的查询选择(query init) 和跨模态解码器(head)。这也是区别其他方法的地方, 其他方法一般在1到2个阶段进行融合。

在这里插入图片描述

在这里插入图片描述
模型结构:
在这里插入图片描述
模型设计上, image backbone 采用Swin Transformer, text backbone 采用Bert。

3 Grounding DINO 1.5: Advance the “Edge” of Open-Set Object Detection 2024.05 IDEA Research

这篇工作主要是在Grounding DINO的基础上进一步扩大了模型规模和数据规模。 有2个版本的模型, 分别是Pro和Edge, Pro主打效果好, Edge版本主打高性能, 牺牲了一定的效果。
相比Grounding DINO, 主要是在密集场景检测, 长尾目标检测和语义理解上有了很大改进, 并且减少了幻觉(检测出图像中没有的prompt对象)。

4 DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding 2024.11 IDEA Research

这篇工作在扩展了更多的输入prompt, 包括文本prompt, 视觉prompt和自定义prompt, 从而使得长尾目标检测更容易。 并且作者构建了包含1亿个高质量样本的数据集。在如此大规模数据上预训练后,
DINO-X 具备了基础的目标级别的表征能力, 可以支持多种目标感知和理解的任务, 比如检测, 分割, 姿态估计, 问答等等。

在这里插入图片描述

其中DINO和Grounding DINO 开源了部分代码和权重, 同时也提供了api。(最大的模型Swin-L未开放权重, 推测api中使用的应该是Swin-L, 实测api的效果比开源代码好很多。) Grounding DINO 1.5 和DINO-X 不开源, 提供了api的方式使用, 但api不是免费的, 首次注册会有一定的赠送。
在这里插入图片描述

模型体验平台: https://cloud.deepdataspace.com/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值