本文来源公众号“arXiv每日学术速递”,仅用于学术分享,侵权删,干货满满。
原文链接:DINO-X:一种用于开放世界目标检测和理解的统一视觉模型
图1:DINO-X是一个统一的以对象为中心的视觉模型,支持各种开放世界感知和对象级理解任务,包括开放世界目标检测和分割、短语定位、视觉提示计数、姿态估计、免提示目标检测和识别、密集区域标题生成等。
0 摘要
本文介绍了DINO-X,这是一种由IDEA研究团队开发的统一以对象为中心的视觉模型,其开放世界目标检测性能目前最佳。DINO-X采用与Grounding DINO 1.5 [47]相同的基于Transformer的编码器-解码器架构,以追求用于开放世界对象理解的对象级表示。 为了简化长尾目标检测,DINO-X扩展了其输入选项,以支持文本提示、视觉提示和自定义提示。 通过这种灵活的提示选项,我们开发了一个通用对象提示,以支持免提示开放世界检测,从而无需用户提供任何提示即可检测图像中的任何内容。 为了增强模型的核心定位能力,我们构建了一个包含超过1亿个高质量定位样本的大规模数据集,称为Grounding-100M,以提升模型的开放词汇表检测性能。 在如此大规模的定位数据集上进行预训练,可以得到一个基础的对象级表示,这使得DINO-X能够集成多个感知头,以同时支持多个对象感知和理解任务,包括检测、分割、姿态估计、对象标题生成、基于对象的问答等。DINO-X包含两个模型:Pro模型,为各种场景提供增强的感知能力;Edge模型,针对更快的推理速度进行了优化,更适合在边缘设备上部署。 实验结果证明了DINO-X的优越性能。 具体而言,DINO-X Pro模型在COCO、LVIS-minival和LVIS-val零样本目标检测基准测试中分别实现了56。 0 AP、59。8 AP和。 值得注意的是,它在LVIS-minival和LVIS-val基准测试的稀有类别中分别获得了和,两者都将之前的最先进性能提高了5。8 AP。 这样的结果强调了其在识别长尾物体方面能力的显著提升。 我们的演示和API将发布在 github.com/IDEAResea... 。
1 引言
近年来,目标检测技术已逐渐从封闭集检测模型[74, 28, 4]发展到开放集检测模型[33, 29, 76],后者能够识别与用户提供的提示符相对应的物体。 此类模型具有众多实际应用,例如增强机器人动态环境中的适应能力,辅助自动驾驶车辆快速定位和应对新的物体,提高多模态大语言模型(MLLMs)的感知能力,减少其幻觉,并提高其响应的可靠性。
本文介绍了DINO-X,这是一种由IDEA研究团队开发的统一以对象为中心的视觉模型,其开放世界目标检测性能目前最佳。 基于Grounding DINO 1.5 [47],DINO-X采用相同的Transformer编码器-解码器架构,并采用开放集检测作为其核心训练任务。 为方便长尾目标检测,DINO-X在模型的输入阶段采用了更全面的提示设计。 传统的仅基于文本提示的模型[33, 47, 29]虽然取得了很大进展,但由于难以收集足够多样化的训练数据以涵盖各种应用,仍然难以覆盖足够范围的长尾检测场景。 为了克服这一不足,在DINO-X中,我们将模型架构扩展为支持以下三种类型的提示。 (1) 文本提示:这涉及到根据用户提供的文本输入识别所需的物体,这可以涵盖大部分检测场景。 (2) 视觉提示:除了文本提示之外,DINO-X还支持视觉提示,如T-Rex2 [18],进一步涵盖了仅靠文本无法很好描述的检测场景。 (3) 自定义提示:为了实现更多长尾检测问题,我们在DINO-X中特别引入了自定义提示,可以将其实现为预定义的或用户调整的提示嵌入,以满足定制需求。 通过提示微调,我们可以为不同的领域创建领域定制的提示,或创建特定功能的提示来满足各种功能需求。 例如,在DINO-X中,我们开发了一个通用的物体提示来支持免提示开放世界目标检测,使得无需用户提供任何提示即可检测给定图像中的任何物体。、
2 方法
为了获得强大的 grounding 性能,我们从不同的来源收集和整理了超过 1 亿个高质量的 grounding 样本,称为 Grounding-100M。 在如此大规模的基础数据集上进行预训练,可以形成基础的物体级表示,这使得DINO-X能够集成多个感知头,同时支持多个物体感知和理解任务。 除了用于目标检测的边界框头之外,DINO-X还实现了三个额外的头:(1) 用于预测检测到物体的分割掩码的掩码头;(2) 用于预测特定类别更有语义意义的关键点的关键点头;(3) 用于为每个检测到的物体生成细粒度描述性标题的语言头。 通过集成这些头,DINO-X可以提供对输入图像更详细的物体级理解。 在图1中,我们列举了各种例子来说明DINO-X支持的物体级视觉任务。
与Grounding DINO 1.5类似,DINO-X也包含两个模型:DINO-X Pro模型,它为各种场景提供了增强的感知能力;以及DINO-X Edge模型,它针对更快的推理速度进行了优化,更适合在边缘设备上部署。 实验结果证明了DINO-X的优越性能。 如图2所示,我们的DINO-X Pro模型实现了56。 0 AP、59。8 AP,和52。4 AP,分别在COCO、LVIS-minival和LVIS-val零样本迁移基准测试中。 值得注意的是,它在LVIS-minival和LVIS-val基准测试的稀有类别中分别获得了63。3 AP和56。5 在LVIS-minival和LVIS-val基准测试的稀有类别上取得的平均精度(AP),表明提升了和5。 0 AP 接地 DINO ,以及 7 . 2 AP和11。9 AP,相对于Grounding DINO 1.5 Pro,突出了其识别长尾物体的能力得到显著提高。
图2:DINO-X Pro在公共检测基准上的零样本性能。 与Grounding DINO 1.5 Pro和Grounding DINO 相比,DINO-X Pro在COCO、LVIS-minival和LVIS-val零样本基准测试上取得了新的最先进(SOTA)性能。 此外,它在检测LVIS-minival和LVIS-val上稀有类别的物体方面,以更大的优势超越了其他模型,证明了其识别长尾物体的卓越能力。
2.1 模型架构
DINO-X的整体框架如图3所示。 沿袭Grounding DINO 1.5,我们还开发了两种DIN