DINO-X：一个统一的视觉模型，用于开放世界物体检测与理解

最新推荐文章于 2025-04-30 15:03:34 发布

小迪coder

最新推荐文章于 2025-04-30 15:03:34 发布

阅读量979

点赞数 18

分类专栏： VLM 文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_57793109/article/details/146197232

版权

Paper Title: DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

Project Website：https://github.com/IDEA-Research/DINO-X-API

该论文发布于2024年

该论文中提出的方法适用的场景如下：

开放世界的物体检测与分割

用描述性文本去定位

用视觉提示词来描述任务

姿态估计

无提示物体监测与识别

密集区域描述

DINO-X 是一个统一的以物体为中心的视觉模型，支持各种开放世界感知和物体级理解任务，包括开放世界物体检测与分割、短语定位、视觉提示计数、姿态估计、无提示物体检测与识别、密集区域描述等。

DINO-X采用与Grounding DINO 1.5 相同的基于Transformer的编码器-解码器架构，旨在实现开放世界物体理解的物体级表示。为了简化长尾物体检测，DINO-X扩展了输入选项，支持文本提示、视觉提示和自定义提示。

DINO-X包括两个模型：
Pro模型，提供增强的感知能力，适用于各种场景；
Edge模型，经过优化，具有更快的推理速度，更适合在边缘设备上部署。

DINO-X 通过构建 Grounding-100M 数据集（一个包含超过 1 亿个高质量定位样本的大规模数据集）来训练模型，从而增强了其对开放词汇物体的检测能力。

DINO-X 还支持多任务学习，能够同时执行多种感知任务，如物体检测、分割、姿势估计等。

什么是多模态大语言模型的幻觉问题？

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。