基于多模态大模型的开放词汇目标检测相关工作总结之ViLD

最新推荐文章于 2025-02-28 11:16:59 发布

可口红烧肉

最新推荐文章于 2025-02-28 11:16:59 发布

阅读量2.3k

点赞数 17

分类专栏：多模态调研文章标签：目标检测人工智能

本文链接：https://blog.csdn.net/small_row/article/details/136453198

版权

ViLD是一种基于预训练模型的开放词汇目标检测方法，通过视觉和语言知识蒸馏，解决目标检测中词汇量扩大的挑战。文章介绍了ViLD的原理、方法及实验结果，表明其在LVIS数据集上表现出色，有望成为处理长尾类别检测的扩展解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ViLD是Google Research在论文《Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation》中提出的，这篇文章发在ICLR-2022，可以视为基于多模态大模型的Open-Vocabulary Object Detection（OVD）的开山鼻祖。

论文链接：http://arxiv.org/abs/2104.13921

0. 摘要

当前目标检测最大的挑战是扩大检测数据的难度很大，很多数据的质量不高，且这个世界上存在太多的object不可能全部检测到。OVD（Open-Vocabulary Object Detection）为解决这一问题提供了新的思路，具体的OVD任务定义可详见《Open-Vocabulary Object Detection Using Captions》。随着多模态大模型的进一步发展，我们可以借用其强大的能力来承接OVD任务。本文提出ViLD，也就是一种通过视觉语言知识蒸馏的训练方法，来完成OVD任务。具体的方法是将预训练的开放词汇图像分类模型（教师）中的知识提炼到两级检测器（学生）中。具体来说，使用教师模型对object proposal的类别文本和图像区域进行编码。然后训练一个学生检测器，其检测到的框的区域嵌入与教师推断的文本和图像嵌入对齐。

实验证明ViLD好于现有方法。

1. 引言

测试举例
本文的目标是训练一个开放词汇对象检测器，仅使用基本类别中的检测注释来检测文本输入描述的任何新类别中的对象。

现有的方法为了提高检测词汇量的方法都是收集更多具有标记的图像，但是根据Zipf定律，现实中目标都是遵从长尾分布的，不可能通过标签标记所有目标，况且这种方法也会使收集数据变得格外昂贵。

随着CLIP和ALIGN的发展，在图像文本联合训练上取得了很好的效果，但是这都是图像级（image）的成就，OVD是目标级（object）这还有很多挑战。这篇文章考虑借用预训练的开放词汇分类模型的知识来实现开放词汇检测。将OVD划分为两个子问题，一是生成object proposal，二是开放词汇图像分类。作者使用基本类别中的示例来训练区域提议模型（region proposal model）。然后，使用预训练的开放词汇图像分类模型对裁剪后的对象提案进行分类，其中可以包含基本类别和新类别。这种方法的推理速度非常慢，因为它将对象提案一一输入到分类模型中，为了解决这一问题，作者使用ViLD训练两阶段的开放词汇检测器。ViLD包含两个组件，一个是text embedding，另一个是image embedding。在ViLD-text中，作者通过将类别名称输入预训练的文本编码器来获得文本嵌入。然后推断的文本嵌入用于对检测到的区域进行分类；在ViLD-image中，通过将对象建议输入预训练的图像编码器来获得图像嵌入。然后我们训练一个 Mask R-CNN，其检测到的框的区域嵌入与这些图像嵌入对齐。与 ViLD-text 相比，ViLD-image 从基本类别和新类别中提取知识，因为提议网络可以检测包含新对象的区域，而 ViLD-text 只从基本类别中学习。蒸馏使 ViLD 在选择教师和学生架构方面具有通用性。

2. 方法

在这里插入图片描述

新类别的定位

开放词汇检测的第一个挑战是定位新对象。作者对Mask RCNN进行了修改，替换定位模块为“与类无关”的模块，对于每个感兴趣区域，这模块仅预测所有类别的单个bbox和单个mask，而不是每个类别一个预测。“与类无关”的模块可以推广到新的对象。

裁剪区域OVD

一旦候选对象被定位，作者重用预训练的开放词汇图像分类器来对每个区域进行分类以进行检测。

对于Image-embedding，作者用基类和提取的region proposal训练一个建议网络，并裁剪调整大小，将其喂给预训练图像编码器去计算图像embedding。裁剪调整成1和1.5嵌入，然后进行归一化。
公式1
对于Text-embedding，作者喂给文本编码器的形式是提示模板
在这里插入图片描述
然后计算图像和文本嵌入之间的余弦相似度。应用 softmax 激活，然后应通过NMS以获得最终检测，但是因为每个裁剪区域都要过编码器，会导致很慢。

ViLD

通过ViLD的方法来提升推理速度过慢的问题，对于ViLD-text，作者使用Text-embedding替换普通的分类器，对于与C_B中任何groundtruth不匹配的提案，它们被分配到背景类别。
在这里插入图片描述
由于文本“background”不能很好地代表这些不匹配的提案，因此我们允许背景类别学习自己的嵌入 e_bg。我们计算每个区域嵌入 $R (φ (I), r)$ 和所有类别嵌入