🐧大模型系列篇章
💖 多模态大模型 🔎 GroundingDINO 论文总结
💖 端到端目标检测 🔎 从DETR 到 GroundingDINO
💖 多模态大模型 👉 CLIP论文总结
💖 多模态大模型 👉 EVA-CLIP
💚 生成模型 👉 从 VAE 到 Diffusion Model (上)
💚 生成模型 👉 从 VAE 到 Diffusion Model (下)
💧 天气大模型
欢迎订阅专栏,第一时间掌握最新科技 专栏链接 |
论文:https://arxiv.org/pdf/2303.05499
题目:Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
从题目就可以知道Grounding DINO 的内容了:introducing language to a closed-set detector for open-set concept generalization.
- 如何高效的融合图像,文本两种模态?
作者把 闭集的目标检测器 分成了三个阶段
1. 颈部阶段(Neck Module)2. 查询初始化阶段 3. 头部阶段(Head Phase)
同时提出了一个紧凑的融合方法 (a tight fusion solution),包括一个特征增强(feature enchancer),一个语言指导问答选择 (a language-guided query selection),一个跨模态解码器 (a cross-modality decoder for cross-modality fusion).
Grounding DINO 如何训练 端到端目标检测 | 从DETR 到 GroundingDINO |
1. Introduction
先来认识一下开放集目标检测 open-set object detection: To detect arbitrary objects specified by human langugage inputs.
作为一个通用的开放集目标检测器 非常有潜力,比如,它可以与 生成模型 (generative models) 结合,去实现 图像编辑 (image editing)。
The key to open-set detection is introducing langugage for unseen object gerenalization
-
GLIP: 它重新将目标检测问题解释为短语定位任务,并引入了目标区域与语言短语之间的对比训练
-
将目标检测任务重新解释为短语定位任务。这意味着不再简单地识别物体,而是将物体与语言描述的短语相关联。这样做的好处是,可以更直接地从语言描述中理解图像中的内容,同时也为图像理解和自然语言处理之间的融合提供了一种框架。
-
引入目标区域与语言短语之间的对比训练:对比训练是一种机器学习中常用的技术,旨在通过比较不同样本之间的相似性来学习表示。GLIP利用对比训练的思想,将目标区域(即图像中的物体区域)与对应的语言短语进行比较训练。通过这种方式,模型学习到了如何将语言描述与图像中的物体区域相关联,从而提高了模型在短语定位任务上的性能。
-
在数据集上展现出色的灵活性: GLIP表现出了对于不同类型和特征的数据集具有出色的适应能力。这意味着即使在处理各种不同结构和特性的数据时,GLIP模型也能够保持良好的性能。
-
在闭集和开集检测方面表现出了显著的性能: GLIP在闭集和开集检测任务中都取得了显著的性能表现。闭集检测是指模型只能识别训练集中存在的类别,而开集检测则是指模型需要处理未见过的类别。GLIP在两种情况下都取得了令人瞩目的结果,表明其在处理各种检测任务时的通用性和鲁棒性。
-
-
Grounding DINO相比于GLIP有几个优势
- 首先,基于Transformer的架构类似于语言模型,这使得它更容易处理图像和语言数据。例如,由于所有图像和语言分支都是基于Transformers构建的,因此我们可以轻松地在其整个流程中融合跨模态特征。
- 其次,基于Transformer的检测器已经证明了利用大规模数据集的卓越能力。
- 最后,作为一个类似于DETR的模型,DINO可以在不使用任何硬编码模块(如NMS,即非最大抑制)的情况下进行端到端优化,这极大地简化了整体基础模型的设计。
1.1 如何通过在闭集检测器的基础上引入语言感知机制,将其扩展为开放集检测器
如何通过在闭集检测器的基础上引入语言感知机制,将其扩展为开放集检测器。这种扩展的关键是使用语言信息来使模型能够识别新的类别,并通过对比损失来确保不同模态(图像和语言)的信息在模型中得到合适的融合。 |
现有的开放集检测器通常是通过在 语言信息的基础上 将闭集检测器扩展到开放集场景中来开发的。一般来说,闭集检测器通常由三个重要模块组成:用于 特征提取的骨干网络、用于 特征增强的颈部网络以及用于 区域细化(或框预测)的头部网络。
通过 学习与语言相关的区域嵌入(language-aware region embeddings),闭集检测器可以被推广用于检测新的对象,模型可以将图像中的每个区域(可能包含对象)与语言描述中的新类别相关联。在这种方法中,图像中的每个区域都会被嵌入到一个与语言相关的语义空间中。这个语义空间是基于语言定义的,因此它能够将 图像中的视