论文阅读4——RegionCLIP:基于区域的语言图像预训练-CSDN博客

本文链接：https://blog.csdn.net/2403_87584552/article/details/142750978

论文原文地址：CVPR 2022 Open Access Repository

开源代码：https://github.com/microsoft/RegionCLIP

论文翻译

摘要：

使用图像-文本对的对比语言-图像预训练(CLIP)在zero-shot和迁移学习设置下的图像分类上都取得了令人印象深刻的结果。然而，我们表明，由于主要的领域转移，直接应用这些模型来识别图像区域进行对象检测会导致不满意的性能:CLIP被训练为将图像作为一个整体与文本描述相匹配，而没有捕获图像区域和文本范围之间的细粒度对齐。为了缓解这一问题，我们提出了一种名为RegionCLIP的新方法，该方法大大扩展了CLIP来学习区域级视觉表示，从而实现图像区域和文本概念之间的细粒度对齐。我们的方法利用CLIP模型将图像区域与模板标题匹配，然后预训练我们的模型以在特征空间中对齐这些区域-文本对。当将我们的预训练模型转移到开放词汇表对象检测任务时，我们的方法在COCO和LVIS数据集上对新类别的性能分别优于现有的3.8 AP50和2.2 AP。此外，学习到的区域表示支持目标检测的零射击推理，在COCO和LVIS数据集上都显示出有希望的结果。我们的代码可在https://github.com/microsoft/RegionCLIP上获得。

1 介绍

最近在视觉语言表征学习方面的进展已经创造了一些出色的模型，如CLIP[37]、ALIGN[26]和Florence[59]。这样的模型通过将图像与其标题匹配，使用数亿对图像-文本对进行训练，在没有手动标签的情况下实现了识别大量概念的令人印象深刻的结果，并且能够转移到许多视觉识别任务中。随着他们在图像分类上的成功，一个自然的问题是这些模型是否可以用于图像区域的推理，例如，用于目标检测任务。

为了回答这个问题，我们使用预训练的CLIP模型构建了一个简单的R-CNN风格[16]的目标检测器，类似于在ImageNet上使用预训练的卷积网络。该检测器从输入图像中裁剪候选对象区域，并通过将裁剪区域的视觉特征与对象类别的文本嵌入相匹配，应用CLIP模型进行检测。图1(a-b)为LVIS数据集上的结果[19]。当使用目标提案[42]作为输入区域时，来自CLIP的分数通常无法捕获定位质量(图1a)。即使使用groundtruth对象盒，使用CLIP的分类准确率也从ImageNet上的60%显著下降到LVIS上的19%，类别数量相似(图1b)。因此，当应用预训练的CLIP模型进行对象检测时，存在主要的性能下降。我们如何使视觉语言预训练模型能够对图像区域进行推理?

图1：（a）预训练的CLIP模型[37]未能捕捉到定位质量。（b）使用相同的预训练CLIP对图像区域进行分类时，准确性会大幅下降。（c）我们的主要想法是学习匹配图像区域及其文本描述。

我们认为主要的差距在于这些视觉语言模型的训练。许多现有的视觉模型，包括CLIP，训练它们将图像与其图像级文本描述相匹配。该训练无法意识到局部图像区域和文本标记之间的对齐。因此，模型无法精确地将文本概念与图像区域联系起来。此外，裁剪局部图像区域并将其与文本标记进行匹配在很大程度上忽略了周围的视觉环境，这对对象识别至关重要，更不用说高计算成本了，例如，在现代GPU上每张图像需要几秒钟。

本文探讨了通过视觉语言预训练进行目标检测的学习区域表示。我们的核心思想是在预训练过程中明确地对齐图像区域和文本标记。然而，出现了两个关键挑战。首先，图像区域和文本标记之间的细粒度对齐在图像-文本对中不可用，注释成本很高。其次，图像的文本描述通常是不完整的，即许多图像区域不是由文本描述的。为了应对这些挑战，我们建议从预训练的视觉语言模型中引导，以对齐图像区域和文本标记，并填充缺失的区域描述，如图1c所示。

具体来说，我们的方法从从文本语料库中解析出的对象概念池开始，并通过将这些概念填充到预定义的模板中来合成区域描述。给定输入图像及其来自对象建议或密集滑动窗口的候选区域，使用预训练的CLIP模型来对齐区域描述和图像区域，为区域文本对齐创建“伪”标签。此外，我们将“伪”区域文本对和真实图像文本对结合起来，通过对比学习和知识提炼来预训练我们的视觉语言模型。尽管“伪”区域文本对是有噪声的，但它们仍然为学习区域表示提供了有用的信息，从而有助于弥合目标检测中的差距，正如我们的实验所验证的那样。

我们在图像字幕数据集（如概念字幕[45]）上预训练我们的RegionCLIP模型，并主要在开放词汇对象检测的基准（COCO[32]和LVIS[19]数据集）上评估我们的方法。当转移到开放词汇对象检测时，我们的预训练模型在COCO和LVIS上建立了新的技术水平（SoTA）。例如，对于COCO和LVIS上的新类别，我们的方法比之前的方法[18,60]至少高出3.8 AP50和2.2 AP。此外，我们的模型支持零样本推理，并以明显的优势优于一组强基线。

我们的贡献总结如下：（1）我们提出了一种新方法，无需手动注释即可对齐图像区域及其文本描述，从而实现了学习视觉区域表示的视觉语言预训练。（2）促进我们预训练的一项关键技术创新是一种可扩展的方法，该方法使用文本提示将对象描述与图像区域对齐而不依赖于人类注释，也不限于与图像配对的文本。（3）我们的预训练模型在转换为开放词汇表对象检测时表现出了很强的效果，并在对象检测的零镜头推理方面表现出了有前景的能力。

2 相关工作

图像的表征学习。早期关于视觉表示学习的研究主要集中在使用劳动密集型的人类注释来训练图像分类模型[13,22,30,46,50]。学习到的特征可以转移到识别任务中[16]，分类器可用于标记图像以进行半监督学习[36,55,57]。为了减轻注释负担，自监督学习[5,6,17,20]最近受到了相当大的关注。

最相关的工作是从自然语言中学习视觉表示，如图像标签[3,8,12,25,28]和文本描述[11,23,43,53,62]。利用从互联网收集的数百万对图像-文本，视觉语言预训练[26，37]中的最新方法学会了将图像与文本描述相匹配，并在图像分类的零样本推理和迁移学习方面表现出了令人印象深刻的性能。然而，这些工作侧重于为图像分类量身定制的全局表示。在本文中，我们建议学习局部图像区域的视觉表示，以实现基于区域的推理（例如，对象检测）的零样本推理和转移学习。

图像区域的表示学习。许多基于区域的推理任务，如对象检测[4,41,42,52]，都依赖于密集的人类注释[14,19,29,32]。最近，半监督学习得到了探索[48,56,66]，其中预训练检测器用于创建图像区域的伪标签。除了对象标签，区域表示学习还受益于对象属性的额外标签[1,29,61]，这表明视觉语言任务[9,31,33