多模态大模型 | GroundingDINO 论文总结

???/cy

已于 2024-05-30 10:17:30 修改

阅读量4.7k

点赞数 26

分类专栏：大模型论文系列文章标签：多模态模型大模型开放集目标检测模型目标检测 zero-shot Grounding DINO 人工智能

于 2024-05-16 20:08:49 首次发布

本文链接：https://blog.csdn.net/qq_45842681/article/details/138945406

版权

🐧大模型系列篇章

💖 多模态大模型 🔎 GroundingDINO 论文总结
 💖 端到端目标检测 🔎 从DETR 到 GroundingDINO
💖 多模态大模型 👉 CLIP论文总结
 💖 多模态大模型 👉 EVA-CLIP
💚 生成模型 👉 从 VAE 到 Diffusion Model （上）
💚 生成模型 👉 从 VAE 到 Diffusion Model （下）
💧 天气大模型

欢迎订阅专栏，第一时间掌握最新科技
专栏链接

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/0df070b3703f43ffbb7bb23c11a3f7fc.png
论文：https://arxiv.org/pdf/2303.05499
题目：Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

从题目就可以知道Grounding DINO 的内容了：introducing language to a closed-set detector for open-set concept generalization.

如何高效的融合图像，文本两种模态？
作者把 闭集的目标检测器 分成了三个阶段
1. 颈部阶段（Neck Module）2. 查询初始化阶段 3. 头部阶段（Head Phase）

同时提出了一个紧凑的融合方法 (a tight fusion solution)，包括一个特征增强(feature enchancer)，一个语言指导问答选择 (a language-guided query selection)，一个跨模态解码器 (a cross-modality decoder for cross-modality fusion).

Grounding DINO 如何训练
端到端目标检测 | 从DETR 到 GroundingDINO

1. Introduction

先来认识一下开放集目标检测 open-set object detection: To detect arbitrary objects specified by human langugage inputs.
作为一个通用的开放集目标检测器 非常有潜力，比如，它可以与生成模型 (generative models) 结合，去实现图像编辑 (image editing)。

The key to open-set detection is introducing langugage for unseen object gerenalization

GLIP: 它重新将目标检测问题解释为短语定位任务，并引入了目标区域与语言短语之间的对比训练
- 将目标检测任务重新解释为短语定位任务。这意味着不再简单地识别物体，而是将物体与语言描述的短语相关联。这样做的好处是，可以更直接地从语言描述中理解图像中的内容，同时也为图像理解和自然语言处理之间的融合提供了一种框架。
- 引入目标区域与语言短语之间的对比训练：对比训练是一种机器学习中常用的技术，旨在通过比较不同样本之间的相似性来学习表示。GLIP利用对比训练的思想，将目标区域（即图像中的物体区域）与对应的语言短语进行比较训练。通过这种方式，模型学习到了如何将语言描述与图像中的物体区域相关联，从而提高了模型在短语定位任务上的性能。
- 在数据集上展现出色的灵活性： GLIP表现出了对于不同类型和特征的数据集具有出色的适应能力。这意味着即使在处理各种不同结构和特性的数据时，GLIP模型也能够保持良好的性能。
- 在闭集和开集检测方面表现出了显著的性能： GLIP在闭集和开集检测任务中都取得了显著的性能表现。闭集检测是指模型只能识别训练集中存在的类别，而开集检测则是指模型需要处理未见过的类别。GLIP在两种情况下都取得了令人瞩目的结果，表明其在处理各种检测任务时的通用性和鲁棒性。
Grounding DINO相比于GLIP有几个优势
- 首先，基于Transformer的架构类似于语言模型，这使得它更容易处理图像和语言数据。例如，由于所有图像和语言分支都是基于Transformers构建的，因此我们可以轻松地在其整个流程中融合跨模态特征。
- 其次，基于Transformer的检测器已经证明了利用大规模数据集的卓越能力。
- 最后，作为一个类似于DETR的模型，DINO可以在不使用任何硬编码模块（如NMS，即非最大抑制）的情况下进行端到端优化，这极大地简化了整体基础模型的设计。

1.1 如何通过在闭集检测器的基础上引入语言感知机制，将其扩展为开放集检测器

如何通过在闭集检测器的基础上引入语言感知机制，将其扩展为开放集检测器。这种扩展的关键是使用语言信息来使模型能够识别新的类别，并通过对比损失来确保不同模态（图像和语言）的信息在模型中得到合适的融合。

现有的开放集检测器通常是通过在 语言信息的基础上 将闭集检测器扩展到开放集场景中来开发的。一般来说，闭集检测器通常由三个重要模块组成：用于 特征提取的骨干网络、用于 特征增强的颈部网络以及用于 区域细化（或框预测）的头部网络。
通过 学习与语言相关的区域嵌入（language-aware region embeddings），闭集检测器可以被推广用于检测新的对象，模型可以将图像中的每个区域（可能包含对象）与语言描述中的新类别相关联。在这种方法中，图像中的每个区域都会被嵌入到一个与语言相关的语义空间中。这个语义空间是基于语言定义的，因此它能够将 图像中的视

最低0.47元/天解锁文章