F-vlm: Open-vocabulary object detection upon frozen vision and language models
地址:https://arxiv.org/abs/2209.15639
小评
通过侧重特征对齐,解决开放词汇检测中基础类别到新类别的泛化问题
论文 | 核心方法 | 教师模型 | 学生模型 | 关键区别 |
---|---|---|---|---|
F-VLM | 伪标签蒸馏 | 冻结VLM | 自定义检测器 | 静态知识迁移 |
**F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models **
核心思想:基于**冻结的视觉-语言模型(VLM)**构建检测器,减少训练成本。
方法创新:
- 伪标签蒸馏:通过VLM生成伪标签,指导检测器学习新类别。
- 提示自适应:动态调整文本提示以适应检测任务,增强细粒度对齐。
区别:与BARON的对比学习不同,F-VLM依赖冻结模型的静态知识,通过伪标签迁移。
摘要
我们提出了 F-VLM,一种基于冻结视觉和语言模型的简单开放词汇对象检测方法。F-VLM 通过消除知识提炼或检测定制预训练的需要,简化了当前的多阶段训练流程。令人惊讶的是,我们观察到冻结的 VLM:1) 保留了检测所需的局部敏感特征,2) 是一个强大的区域分类器。我们仅微调检测器头,并在推理时结合每个区域的检测器和 VLM 输出。F-VLM 表现出引人注目的扩展行为,并且在系统级 LVIS 开放词汇检测基准上实现了比以前最先进的 +6.5 掩码 AP 改进。此外,我们在 COCO 开放词汇检测基准和跨数据集传输检测上展示了非常有竞争力的结果,此外还显着加快了训练速度并节省了计算资源。
1 INTRODUCTION
检测是一项基本的视觉任务,旨在定位和识别图像中的物体。然而,手动注释边界框或实例蒙版的数据收集过程繁琐且成本高昂,这将现代检测词汇量的大小限制在 1 0 3 10^3 103 的数量级。这比人类用来描述视觉世界的词汇量要小几个数量级。为了克服这种限制,我们专注于开放词汇对象检测(Zareian 等人,2021 年;Gu 等人,2022 年),以使检测超越固定的词汇集。
最近,视觉和语言模型 (VLM) 通过从互联网规模的图像-文本对中学习获得了强大的开放词汇视觉识别能力(Radford 等人,2021 年;Jia 等人,2021 年)。它们通常应用于零样本分类(例如,在 ImageNet 上),使用冻结权重而不进行微调,这与现有的将 VLM 应用于开放词汇检测时进行再训练或微调的范式形成鲜明对比。
直观地讲,为了在训练期间将图像内容与文本描述对齐,VLM 可以学习可转移到物体检测的局部敏感和判别性特征。图 1 中的观察结果支持了我们的直觉。令人惊讶的是,冻结 VLM 的特征包含丰富的信息,这些信息既对描述物体形状具有局部敏感性(第 2 列),又对区域分类具有判别性(第 3 列)。这促使我们探索使用冻结 VLM 特征进行开放词汇检测,这需要对野外物体进行准确的定位和分类。
我们提出了 F-VLM——一种基于冻结 VLM 的简单且可扩展的开放词汇检测方法。对于定位,我们只需连接一个检测器头来预测物体区域。对于开放词汇识别,我们在测试时将 VLM 特征池化器(例如,自注意力层)应用于冻结主干中的区域特征。我们仅在冻结的 VLM 主干上训练检测头,并将检测分数与测试时相应的 VLM 预测相结合。我们的方案将开放词汇检测器的训练复杂度降低到标准检测器的水平以下,从而无需知识提炼、检测定制预训练或弱监督学习。通过完全保留预训练 VLM 的知识,F-VLM 保持了与 ViTDet(Li et al.,2022c)类似的理念,将检测器特定的学习与主干中与任务无关的视觉知识分离。
我们证明了 F-VLM 在 LVIS(Gupta 等人,2019 年)、COCO(Lin 等人,2014 年)和 Objects365(Shao 等人,2019 年)上的有效性。以下是我们的贡献和观察的总结:
• 我们提出了 F-VLM——一种简单的开放词汇检测方法,该方法基于冻结的 VLM,无需知识提炼、检测定制预训练或弱监督学习。
• 尽管 F-VLM 很简单,但它实现了强大的性能,在系统级别上超越了之前最先进的 LVIS 开放词汇检测基准 6.5 个掩码 APr,并且在跨数据集传输(COCO、Objects365)方面优于现有方法。
• F-VLM 通过增加主干容量(例如,使用我们最大的主干 +14.2 LVIS 掩码 APr),表现出引人注目的扩展行为和持续的性能改进。
• F-VLM 的可训练参数少得多,因此训练速度显著加快。与强大的开放词汇检测方法 ViLD(Gu 等人,2022 年)相比,F-VLM 不仅实现了更好的性能,而且还节省了高达 200 倍的训练计算量。
我们希望这些发现将有助于研究界进一步探索冻结 VLM,以用于更广泛的计算机视觉任务。
2 RELATED WORK
零样本/开放词汇视觉识别和表示学习。零样本和开放词汇识别一直是计算机视觉领域的一个长期问题。早期的研究使用视觉属性将类别表示为二进制码本,并学习预测新类别的属性(Jayaraman & Grauman,2014;Rohrbach 等人,2011)。DeViSE(Frome 等人,2013)和 ConSE(Norouzi 等人,2014)率先使用深度学习来学习联合图像文本嵌入空间。许多研究都表明,从与图像相关的自然语言中进行表征学习具有良好的前景,例如图像标签(Chen & Gupta,2015;Divvala 等,2014;Joulin 等,2016)或文本描述(Desai & Johnson,2021;He & Peng,2017;Sariyildiz 等,2020;Wang 等,2009;Zhong 等,2021)。最近,流行的大型 VLM 通过对数十亿个图像-文本对进行训练来扩大规模,并通过对比学习获得强大的图像-文本表征(Radford 等,2021;Jia 等,2021;Pham 等,2021;Zhai 等,2022)。这些模型在许多分类基准上实现了强大的零样本性能,并在扩展模型容量方面显示出明显的优势。
虽然上述所有工作都研究图像级识别,但本文的重点是对象级理解。最近,Vasconcelos 等人 (2022) 表明,在具有足够检测器头容量的情况下,冻结分类模型有利于封闭词汇检测。此外,冻结的 VLM 可以用作教师模型,并与自训练相结合,实现零样本语义分割 (Zhou 等人,2022a)。相比之下,我们研究如何将冻结的 VLM 直接用作开放词汇对象检测器的一部分。
零样本/开放词汇对象检测。扩大大词汇检测的数据收集和注释成本高昂且劳动密集。零样本检测旨在通过学习检测训练数据中不存在的新类别来缓解这一挑战。许多方法通过将图像区域特征与类别词嵌入对齐(Bansal 等人,2018 年;Rahman 等人,2020 年;Demirel 等人,2018 年;Zheng 等人,2020 年)或使用生成模型合成视觉特征(Hayat 等人,2020 年;Zhu 等人,2020 年)来解决这个问题。最近,Zareian 等人提出了开放词汇检测 (OVD) 基准,旨在弥合 ZSD 和监督学习之间的性能差距(Zareian 等人,2021 年)。该模型首先在图像说明数据上进行预训练以识别新物体,然后进行微调以进行零样本检测(Zareian 等人,2021 年)。
遵循 OVD 基准,ViLD(Gu 等人,2022 年)提出将预训练 VLM 的丰富表示提炼到检测器中,而 DetPro(Du 等人,2022 年)通过应用即时优化的思想改进了 ViLD。RegionCLIP(Zhong 等人,2022 年)开发了一种区域文本预训练策略,该策略利用预训练的 VLM 和图像说明数据,而 Detic(Zhou 等人,2022c)联合训练具有弱监督的检测器。VL-PLM(Zhao 等人,2022 年)探索使用对象提议和 VLM 对未标记数据进行伪标记以进行 OVD。 GLIP(Li et al.,2022b)将物体检测制定为短语基础任务,并在各种检测、基础和字幕数据集上进行预训练,以进行零样本/少样本物体检测。同样,OWL-ViT(Minderer et al.,2022)建议在一系列检测/基础数据集上微调预训练的视觉变换器。所有提到的方法都需要从头开始训练整个检测器,在针对检测进行定制的预训练后进行微调,或在一套检测/基础数据集上进行训练。相比之下,F-VLM 仅在冻结的 VLM 上训练标准检测器头,而不使用上述任何一种方法。
3 METHOD
3.1 OVERVIEW
在本文中,我们解决了开放词汇对象检测问题。在训练时,该模型可以访问 CB 基础类别的检测标签,但在测试时需要从一组 CN 新类别中检测对象。为了使设置更加实用(Zareian 等人,2021 年),我们遵循以前的工作并假设有一个预训练的视觉和语言模型 (VLM),该模型已经从互联网上的大量图像-文本对中学习(Gu 等人,2022 年)。
图 2 显示了整体 F-VLM 架构。我们建议在冻结的 VLM 上构建开放词汇对象检测器,方法是仅对冻结特征上的检测器头进行训练,这可以保证完全保留预训练 VLM 的开放词汇分类能力。在测试时,我们将检测器分数与 VLM 分数相结合以获得开放词汇对象检测分数。通过直接使用冻结的预训练模型,我们的方法简单且易于扩展。
3.2 PRETRAINING FROM VISION AND LANGUAGE MODELS
最近,视觉和语言模型 (VLM) 因其丰富的知识和对视觉和语言领域的强大表征而广受欢迎。我们希望尽可能多地保留它们的知识,以尽量减少将 VLM 调整为开放词汇检测所需的工作量/成本。继现有研究 (Du et al., 2022; Gu et al., 2022; Zhong et al., 2022) 之后,我们在本文中重点关注对比预训练的 VLM,例如 (Jia et al., 2021; Radford et al., 2021)。对比 VLM 通常将图像和文本编码器与对比目标联合训练。我们使用冻结图像编码器作为检测器主干,并使用文本编码器离线缓存检测数据集词汇的文本嵌入(参见第 3.3 节)。
我们将 VLM 图像编码器分为两部分:1) 特征提取器 F(·),例如ResNet50(Radford 等人,2021 年),以及 2)最后一个特征池化层 P(·),例如注意力池化层(Radford 等人,2021 年)。我们采用与图像特征提取器 F(·) 相同的主干架构,这使我们能够直接使用冻结的权重并继承丰富的语义知识(见图 2a)。除了主干初始化之外,我们还采用与 VLM 预训练相同的图像预处理方案来保持其开放词汇识别能力。我们仅在测试时使用最后一个 VLM 池化层 P(·) 进行开放词汇识别(参见第 3.4 节)。在冻结的主干特征的基础上,我们采用 Mask R-CNN(He 等人,2017)头和特征金字塔网络(Lin 等人,2017)作为检测器头,遵循先前的研究(Du 等人,2022;Gu 等人,2022;Zhong 等人,2022)。检测器头是随机初始化的,是 F-VLM 唯一可训练的组件。尽管进行了图像级预训练,但我们通过经验发现,冻结的 VLM 主干包含足够的局部敏感特征,可以实现准确的下游检测(参见附录 C)。
3.3 TEXT-EMBEDDING REGION CLASSIFIER
符号:我们将 I 定义为输入图像,F(I) 是来自图像编码器的主干特征。令 Q(·) 为从 F(I) 和给定框区域提议 b 产生区域嵌入 rb 的函数,这涉及 FPN(Lin et al.,2017)、ROI-Align(He et al.,2017)和 Faster R-CNN 头(Ren et al.,2015)。我们有:
标准检测器使用 K 路分类器,因为训练和测试时类别相同。此设计不支持开放词汇设置,因为开放词汇设置需要在测试时添加新类别。为了适应这种情况,我们用基类别的文本嵌入替换最后一个完全连接层(见图 2a)。在推理时,我们可以简单地扩展文本嵌入以包含用于开放词汇检测的新类别(见图 2b)。这种设计的一个优点是系统可以推广到嵌入空间中 CB 附近的新类别。
要生成文本嵌入,使用图像编码器的匹配文本编码器至关重要,因为它们是一起预先训练的。除了 CB 之外,背景类别由通用短语“背景”表示,以与其他类别兼容。在训练时,与 CB 中任何地面实况框不匹配的提案被视为背景。对于每个区域,我们计算 rb 与 CB 和“背景”文本嵌入的余弦相似度,并在 logits 上应用可学习的温度 τ。检测分数 z(rb) 由以下公式给出:
其中 ,ti 表示第 i 类的文本嵌入。我们对 logits 应用标准 softmax 交叉熵损失(见图 2a)。在测试时,我们保留“背景”类别,并将文本嵌入从 CB 扩展为 CB ∪ CN 以进行开放词汇检测。之前的研究(Zareian 等人,2021 年;Gu 等人,2022 年)也使用了类似的设计。
3.4 OPEN-VOCABULARY RECOGNITION
在区域级别执行开放词汇识别的能力是 F-VLM 不可或缺的一部分。由于主干特征是固定的,因此它们不会过度拟合基本类别,可以直接裁剪以进行区域级分类。F-VLM 仅在测试时执行此开放词汇分类。
为了获得区域 b 的特征,我们将 VLM 池化层 P(·) 应用于裁剪的主干输出特征 F(I)(符号见第 3.2 节)。由于池化层需要固定大小的输入,例如 R50 的 7x7(Radford 等人,2021),我们使用 ROI-Align R(·)(He 等人,2017)裁剪和调整区域特征的大小(见图 2b)。与现有研究(Gu 等人,2022;Du 等人,2022)不同,我们不裁剪和调整 RGB 图像区域的大小并在单独的离线过程中缓存它们的嵌入,而是在一个阶段训练检测头。这更简单,更节省空间。此外,我们不会在训练期间使用 R(·) 裁剪 VLM 区域特征,因为主干特征是冻结的。使用公式 1 中的符号,我们通过以下方式获得 VLM 区域嵌入 vb:
其中 b 表示框区域,vb 对应于图 2b 中的 v1, …, vk。注意 R(·) 仅在测试时使用。与公式 2 类似,我们通过余弦相似度计算 VLM 分数,如下所示:
其中 T 是固定温度,文本嵌入在推理时包括 CB 和 CN(见图 2b)。我们使用固定温度来调整公式 2 中 VLM 分数相对于检测分数的比例。在区域 b 等于整个图像的特殊情况下,VLM 分数 w(vb) 等于零样本图像分类分数。
尽管从未在区域上进行过训练,但 F(·) 的裁剪区域特征仍保持了良好的开放词汇识别能力。然而,我们观察到裁剪区域特征对区域的定位质量不够敏感,即松散和紧密定位的框都具有相似的特征。这可能对分类有好处,但对检测有困难,因为我们也需要检测分数来反映定位质量。为了解决这个问题,我们应用几何平均值将公式 4 中的 VLM 分数 w(vb)i 与公式 2 中每个区域 b 和类别 i 的检测分数 z(rb)i 相结合。最终检测分数 s(rb)i 由以下公式给出:
其中 α、β ∈ [0, 1] 控制基础/新类别的 VLM 分数权重,背景分数直接来自检测器,即 s(rb)0 = z(rb)0。与 (Gu et al., 2022) 中的集成系统相比,我们的设计更简单,无需知识提炼或双 Faster R-CNN 头。我们在附录 A.2 中展示了不同分数融合设计的消融。
3.5 OPEN-VOCABULARY LOCALIZATION
如何定位新物体并将其与背景分离是开放词汇检测中的一个重要问题。标准检测器并非为定位新物体而设计,因为它们中的大多数都应用了特定于类的定位,包括框回归和掩码预测头,例如 Mask R-CNN (He et al., 2017)。受到学习到的对象性 (Kim et al., 2022; Kuo et al., 2015; Wang et al., 2020) 的启发,我们改用与类别无关的框回归和掩码预测头。也就是说,对于每个区域提议,我们为所有类别预测一个框和一个掩码,而不是每个类别预测一个。这个简单的变化使我们能够在开放词汇设置中定位新物体。我们注意到 F-VLM 框架并不特定于 Mask R-CNN 检测器头的选择,其他模型也可能适用,例如 (Carion et al., 2020; Redmon et al., 2016)。我们根据现有研究选择了 Mask R-CNN(Gu 等人,2022 年;Zareian 等人,2021 年;Zhong 等人,2022 年)。
5 结论
我们提出了 F-VLM——一种基于冻结 VLM 的简单开放词汇检测方法,无需知识提炼、针对检测的预训练或弱监督学习。FVLM 提供了显著的训练加速和计算节省,在系统级 LVIS 基准上实现了新的最先进水平,并表现出非常有竞争力的转移检测。我们希望这项研究可以帮助社区探索冻结 VLM 以用于更广泛的视觉任务。