Grounding DINO：根据文字提示检测任意目标

猛码Memmat

已于 2023-09-13 09:48:51 修改

阅读量637

点赞数 1

分类专栏： vision / segmentation 文章标签：计算机视觉 python 多模态 text image

于 2023-08-14 18:13:13 首次发布

本文链接：https://blog.csdn.net/JishuFengyang/article/details/132281017

版权

Grounding DINO是一种基于Transformer的模型，能根据文字描述进行目标检测，尤其在open-set和Referring Expression Comprehension任务中表现出色。通过创新的Feature Extraction and Enhancer、Language-Guided Query Selection、Cross-Modality Decoder等方法，实现了多模态特征融合，无需额外训练数据就能在COCO和ODinW数据集上取得高AP值。

摘要由CSDN通过智能技术生成

在这里插入图片描述

既CLIP打破文字和图像之间的壁垒、DINO提高了目标检测精度的上限之后，又一力作横空出世，它就是 Grounding DINO。

简单来说，Grounding DINO可以根据文字描述检测指定目标。例如下图左侧，你告诉它：“检测左边的狮子！”，它就会只把左边的狮子框选出来，是不是很神奇？当Grounding DINO和stable diffusion结合时，就会出现更加神奇的功能：自动P图。如下图右侧，你告诉它：“将左侧的狮子变成狗”，它就会帮你把左边的狮子P成狗。

在这里插入图片描述
在不需要任何COCO训练集的情况下，Grounding DINO就在COCO minival测试集中达到了52.5AP，经过微调之后达到了63.0AP。这样的结果可以说是非常的Amazing了，下面我将详细介绍Grounding DINO的原理。

1. 背景介绍

在视觉领域，要想达到真正的智能，那么对新事物的理解应该作为其一项基本能力。

在Grounding DINO中，作者想要完成这样一项任务：根据人类文字输入去检测任意类别的目标，称作开放世界目标检测问题（open-set object detection）。

完成open-set object detection的关键是将language信息引入到目标的通用特征表示中。例如，GLIP利用对比学习的方式在目标检测和文字短语之间建立起了联系，它在close-set和open-set数据集上都有很好的表现。尽管如此，GLIP是基于传统的one-stage detector结构，因此还有一定的局限性。

受很多前期工作的启发（GLIP、DINO等），作者提出了Grounding DINO，它相对于GLIP有以下几点优势：

Grounding DINO 的transformer结构更接近于NLP模型，因此它更容易同时处理图片和文字；
Transformer-based detector在处理大型数据集时被证明有优势；
作为DETR的变种，DINO能够完成end-to-end的训练，而且不需要NMS等额外的后处理。

许多现存的工作都是通过引入语言信息来实现closed-set到open-set场景扩展的。通常来说，close-set detector由三个重要部分组成：Backbone用于提取特征，Neck用于特征增强，Head用于bbox预测。让一个close-set detector在文字引导下识别新类别的关键是利用contrast