摘要
大多现有的视觉和语言模型依赖预训练过的视觉编码器,使用一组相对较小的人工注释的数据来感知视觉世界,然而,我们观察到,大规模的预训练通常得到更好的泛化性能,如,CLIP(对比语言-图像预训练),在大量的图像标注对上训练,在各种视觉任务上显示出强大的零样本性能。为进一步研究CLIP带来的优势,我们建议在两种典型的场景下,在各种视觉和语言模型上使用CLIP作为视觉编码器:(1)将CLIP插入到特定于任务的微调中;(2)将CLIP与V&L预训练相结合,并转移到下游任务中。发现,CLIP显著优于广泛使用的用领域内的注释数据的视觉编码器,如BottomUp-TopDown。我们在不同V&L任务上取得了有竞争力或更好的结果,同时在视觉问答、视觉暗示和V&L导航任务上取得了最先进的结果。
一、介绍
大多数V&L模型依赖于视觉编码器来感知视觉世界,将原始像素转换为来自表示空间的向量。最近的研究观察到视觉表示已经成为V&L模型的性能瓶颈,并强调学习强大的视觉编码器的重要性。需要一个视觉编码器,在更多样化和大规模的数据源上进行训练,这些编码器不被一组固定的标签所限制,并具有对看不见的对象和概念的泛化能力。
最近,提出CLIP用于在语言监督下学习视觉概念。CLIP包括一个视觉编码器和一个文本编码器,是从互联网上爬取的4亿个噪声图像-文本对上进行训练的,因此数据收集过程是可伸缩的,不需人工注释。CLIP在ImageNet分类等基准上有很强的零样本能力。将CLIP作为一个零样本模型应用于V&L任务是困难的,因为很多V&L任务需要复杂的多模态推理,因此,我们建议使用CLIP的视觉编码器,用CLIP的视觉编码器取代现有的V&L模型的视觉编码器。
我们考虑以下两种典型情况:1)将CLIP插入直接的特定于任务的微调;2)将CLIP与图像文本对的V&L模型预训练集成,并转移到下游任务。将在这两种场景中使用的模型表示为CLIP-ViL(没有V&L预训练)和CLIP-ViLp(有V&L预训练)。
在直接特定于任务的微调中,在视觉问答任务中,CLIP-ViL在VQA v2.0上实现了1.4%的改善。在V&L预训练中,我们用CLIP取代传统的基于区域的表示,CLIP-ViLp在三个基准测试上表现好,并获得了最新结果(VQA在test-std上76.70%)。使用CLIP-Res50的CLIP-ViLp优于广泛使用的基于区域的编码器BottomUp-TopDown ResNet101,而且,使用CLIP-Res50x4的CLIP-ViLp超过了VinVL-ResNeXt152,这是目前的SotA,是基于区域的编码器的极端放大尝试。
二、背景和动机
视觉和语言模型:在图1中说明了典型的训练阶段:1)视觉编码器在注释的视觉数据集上训练(表示为视觉编码器预训练);2)(可选)对配对的图像-标注数据进行重构目标和图像-文本匹配目标(表示为视觉和语言预训练);3)在特定任务的数据上微调