江大白 | 无需用户提示,检测万物!开放世界目标检测与理解的视觉模型:DINO-X(附论文及源码)

本文来源公众号“江大白”,仅用于学术分享,侵权删,干货满满。

原文链接:无需用户提示,检测万物!开放世界目标检测与理解的视觉模型:DINO-X(附论文及源码)

导读

最近,IDEA研发的DINO-X通用视觉大模型在开放世界目标检测上取得突破,无需提示即可检测图像内容,包括长尾物体。它整合多个感知头支持多种任务,分为高性能Pro和高效Edge版,已应用于具身智能、数据标注等场景。

万物识别:开放世界(Open-world)目标检测!

IDEA 开发了一个通用物体提示来支持无提示的开放世界检测,从而无需用户提供任何提示即可检测图像中的任何内容。发布了DINO系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。

同时构建了一个包含超过 1 亿个高质量基础样本的大规模数据集,称为 Grounding-100M,以提高模型的开放词汇检测性能。还扩展了 DINO-X 以集成多个感知头,从而同时支持多个物体感知和理解任务,包括检测、分割、姿势估计、物体字幕、基于物体的 QA 等。

在线演示:同时支持文本的提示输入!

项目地址及体验地址如下:

代码链接:https://github.com/IDEA-Research/DINO-X-API论文链接:https://arxiv.org/abs/2411.14347在线演示:https://deepdataspace.com/playground/grounding_dino

1. DINO-X亮点

全面检测:DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。

开放世界(Open-world)模型对比!

  • 最强的开放集检测性能:DINO-X Pro 在零样本转移检测基准上创下了新的 SOTA 结果:COCO 上的56.0 AP、LVIS-minival 上的59.8 AP和LVIS-val 上的52.4 AP。将之前的 SOTA 性能提高了 5.8 个AP 和5.0 个 AP,凸显了其识别长尾物体的能力显著提高。

  • 多样化的输入提示和多层次的输出语义表示:DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。

  • 丰富实用的功能:DINO-X可以同时支持许多实用性极强的任务,包括开放集物体检测与分割、短语基础、视觉提示计数、姿势估计和区域字幕。进一步开发了通用物体提示,以实现无提示的任何物体检测和识别。

2. 模型架构

DINO-X 包含两个模型:

  • DINO-X Pro:性能最强的型号,增强感知能力,适用于多种场景;

  • DINO-X Edge:高效模型针对更快的推理速度进行了优化,更适合部署在边缘设备上。

DINO-X Pro的核心架构,与Grounding DINO 1.5类似,利用预先训练好的 ViT 模型作为主要的视觉骨干,并在特征提取阶段采用了深度早期融合策略。但不同的是,他们扩大了DINO-X Pro在输入阶段的提示支持,除了文本,还支持视觉提示和自定义提示,以满足包括长尾物体在内的各种检测需求。而对于DINO-X Edge版本,他们利用 EfficientViT作为高效特征提取的骨干,并采用了类似Transformer编码器-解码器架构。

3. 模型应用场景及效果测试

DINO-X的万物识别能力,让其拥有了对开放世界(Open World)的视觉感知,轻松应对真实世界中的众多不确定性和开放环境,赋能具身智能、大规模多模态数据的自动标注、视障人士服务等高难度场景。

图源:雷锋网

DINO-X 表现出了基于长标题中的名词短语定位图像中相应区域的能力。将详细标题中的每个名词短语映射到图像中的特定对象的能力标志着深度图像理解的重大进步。此功能具有巨大的实用价值,例如使多模态大型语言模型 (MLLM) 能够生成更准确、更可靠的响应。

在DINO-X中,团队开发了一项非常实用的功能,即无提示物体检测,该功能允许用户在不提供任何提示的情况下检测输入图像中的任何物体。当与DINO-X的语言头结合时,此功能可以无缝检测和识别图像中的所有物体,而无需任何用户输入。

DINO-X 可以根据文本提示,通过关键点头预测特定类别的关键点。DINO-X 结合 COCO、CrowdHuman 和 Human-Art 数据集进行训练,能够预测各种场景中的人体和手部关键点。

DINO-X 还支持基于用户定义的视觉提示进行检测,方法是在目标物体上绘制边界框或点。此功能在物体计数场景中表现出卓越的可用性。

与此同时,IDEA团队还推出行业平台架构,通过一个大模型基座,结合通用识别技术结合,让模型不需重新训练,就可边用边学,支撑多种多样的B端应用需求。看到这里,也顺手转发给关注大模型及人工智能技术的朋友们吧!

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值