2021:How Much Can CLIP Benefit Vision-and-Language Tasks?

摘要

        大多现有的视觉和语言模型依赖预训练过的视觉编码器,使用一组相对较小的人工注释的数据来感知视觉世界,然而,我们观察到,大规模的预训练通常得到更好的泛化性能,如,CLIP(对比语言-图像预训练)在大量的图像标注对上训练,在各种视觉任务上显示出强大的零样本性能。为进一步研究CLIP带来的优势,我们建议在两种典型的场景下,在各种视觉和语言模型上使用CLIP作为视觉编码器:(1)将CLIP插入到特定于任务的微调中;(2)将CLIP与V&L预训练相结合,并转移到下游任务中。发现,CLIP显著优于广泛使用的用领域内的注释数据的视觉编码器,如BottomUp-TopDown。我们在不同V&L任务上取得了有竞争力或更好的结果,同时在视觉问答、视觉暗示和V&L导航任务上取得了最先进的结果。

一、介绍

        大多数V&L模型依赖于视觉编码器来感知视觉世界,将原始像素转换为来自表示空间的向量。最近的研究观察到视觉表示已经成为V&L模型的性能瓶颈,并强调学习强大的视觉编码器的重要性。需要一个视觉编码器,在更多样化和大规模的数据源上进行训练,这些编码器不被一组固定的标签所限制,并具有对看不见的对象和概念的泛化能力

        最近,提出CLIP用于在语言监督下学习视觉概念。CLIP包括一个视觉编码器和一个文本编码器,是从互联网上爬取的4亿个噪声图像-文本对上进行训练的,因此数据收集过程是可伸缩的,不需人工注释。CLIP在ImageNet分类等基准上有很强的零样本能力。将CLIP作为一个零样本模型应用于V&L任务是困难的,因为很多V&L任务需要复杂的多模态推理,因此,我们建议使用CLIP的视觉编码器,用CLIP的视觉编码器取代现有的V&L模型的视觉编码器

        我们考虑以下两种典型情况:1)将CLIP插入直接的特定于任务的微调;2)将CLIP与图像文本对的V&L模型预训练集成,并转移到下游任务。将在这两种场景中使用的模型表示为CLIP-ViL(没有V&L预训练)和CLIP-ViLp(有V&L预训练)。

        在直接特定于任务的微调中,在视觉问答任务中,CLIP-ViL在VQA v2.0上实现了1.4%的改善。在V&L预训练中,我们用CLIP取代传统的基于区域的表示,CLIP-ViLp在三个基准测试上表现好,并获得了最新结果(VQA在test-std上76.70%)。使用CLIP-Res50的CLIP-ViLp优于广泛使用的基于区域的编码器BottomUp-TopDown ResNet101,而且,使用CLIP-Res50x4的CLIP-ViLp超过了VinVL-ResNeXt152,这是目前的SotA,是基于区域的编码器的极端放大尝试。

二、背景和动机

        视觉和语言模型:在图1中说明了典型的训练阶段:1)视觉编码器在注释的视觉数据集上训练(表示为视觉编码器预训练);2)(可选)对配对的图像-标注数据进行重构目标和图像-文本匹配目标(表示为视觉和语言预训练);3)在特定任务的数据上微调

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值