CLIP-ViL:CLIP对视觉和语言任务有多大的好处?UC Berkeley&UCLA团队给出了答案!

研究表明,CLIP在大规模图像标题对上预训练后,可在各种视觉任务中展现出强大的零样本迁移能力。通过在VQA、图像字幕和V&L导航任务中使用CLIP作为视觉编码器,取得SOTA或有竞争力的结果。论文探讨了将CLIP直接插入特定任务微调和结合V&L预训练的两种场景。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

1

写在前面

大多数现有的视觉和语言(V&L)模型依赖预训练的视觉编码器,使用相对较小的人工标注数据集来感知视觉世界。然而,大规模的预训练通常可以产生更好的泛化性能,例如,在大量图像标题对上训练的CLIP(Contrastive Language-Image Pre-training,对比语言图像预训练)在各种视觉任务中表现出很强的零样本迁移能力。

为了进一步研究CLIP带来的优势,作者提出在两种典型场景中,在各种V&L模型中使用CLIP作为视觉编码器:

1)将CLIP插入到特定于任务的微调中; 

2)将CLIP与V&L预训练相结合,并迁移到下游任务

作者发现,CLIP显著优于使用域内标注数据训练的视觉编码器(如Bottom Up-Top Down)。作者在各种V&L任务上取得了具有竞争力或更好的结果,同时在Visual Question Answering、 Visual Entailment和V&L Navigation任务上取得了SOTA的结果。

2

论文和代码地址

8e3106de83ef5610c258ba8f0731546d.png

How Much Can CLIP Benefit Vision-and-Language Tasks?

论文地址:https://arxiv.org/abs/2107.06383

代码地址:https://github.com/clip-vil/CLIP-ViL

3

Motivation

视觉和语言(V&L)任务能够测试系统在自然语言帮助下理解和推理视觉世界语义的能力。大多数V&L模型依靠视觉编码器感知视觉世界,将原始像素转换为表示空间的向量。

最近的工作表明,视觉表征已成为V&L模型的性能瓶颈,并强调学习强大视觉编码器的重要性。而高性能的视觉编码器通常是基于带有类别标签(如ImageNet)或边界框(如Visual Genome)的标注数据进行训练的。

然而,这类检测或图像分类数据的收集成本很高,并且视觉表示受到预定义类别标签的限制。因此,需要一种视觉编码器,该编码器在更加多样化和大规模的数据源上进行训练,不受固定标签集的限制,并且具有对没见过的对象和概念的泛化能力。

最近,CLIP被提出用来基

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值