文章目录
既CLIP打破文字和图像之间的壁垒、DINO提高了目标检测精度的上限之后,又一力作横空出世,它就是 Grounding DINO。
简单来说,Grounding DINO可以根据文字描述检测指定目标。例如下图左侧,你告诉它:“检测左边的狮子!”,它就会只把左边的狮子框选出来,是不是很神奇?当Grounding DINO和stable diffusion结合时,就会出现更加神奇的功能:自动P图。如下图右侧,你告诉它:“将左侧的狮子变成狗”,它就会帮你把左边的狮子P成狗。
在不需要任何COCO训练集的情况下,Grounding DINO就在COCO minival测试集中达到了52.5AP,经过微调之后达到了63.0AP。这样的结果可以说是非常的Amazing了,下面我将详细介绍Grounding DINO的原理。
1. 背景介绍
在视觉领域,要想达到真正的智能,那么对新事物的理解应该作为其一项基本能力。
在Grounding DINO中,作者想要完成这样一项任务:根据人类文字输入去检测任意类别的目标,称作开放世界目标检测问题(open-set object detection)。
完成open-set object detection的关键是将language信息引入到目标的通用特征表示中。例如,GLIP利用对比学习的方式在目标检测和文字短语之间建立起了联系,它在close-set和open-set数据集上都有很好的表现。尽管如此,GLIP是基于传统的one-stage detector结构,因此还有一定的局限性。
受很多前期工作的启发(GLIP、DINO等),作者提出了Grounding DINO,它相对于GLIP有以下几点优势:
- Grounding DINO 的transformer结构更接近于NLP模型,因此它更容易同时处理图片和文字;
- Transformer-based detector在处理大型数据集时被证明有优势;
- 作为DETR的变种,DINO能够完成end-to-end的训练,而且不需要NMS等额外的后处理。
许多现存的工作都是通过引入语言信息来实现closed-set到open-set场景扩展的。通常来说,close-set detector由三个重要部分组成:Backbone用于提取特征,Neck用于特征增强,Head用于bbox预测。让一个close-set detector在文字引导下识别新类别的关键是利用contrast