关注公众号,发现CV技术之美
1
写在前面
大多数现有的视觉和语言(V&L)模型依赖预训练的视觉编码器,使用相对较小的人工标注数据集来感知视觉世界。然而,大规模的预训练通常可以产生更好的泛化性能,例如,在大量图像标题对上训练的CLIP(Contrastive Language-Image Pre-training,对比语言图像预训练)在各种视觉任务中表现出很强的零样本迁移能力。
为了进一步研究CLIP带来的优势,作者提出在两种典型场景中,在各种V&L模型中使用CLIP作为视觉编码器:
1)将CLIP插入到特定于任务的微调中;
2)将CLIP与V&L预训练相结合,并迁移到下游任务 。
作者发现,CLIP显著优于使用域内标注数据训练的视觉编码器(如Bottom Up-Top Down)。作者在各种V&L任务上取得了具有竞争力或更好的结果,同时在Visual Question Answering、 Visual Entailment和V&L Navigation任务上取得了SOTA的结果。
2
论文和代码地址
How Much Can CLIP Benefit Vision-and-Language Tasks?
论文地址:https://arxiv.org/abs/2107.06383
代码地址:https://github.com/clip-vil/CLIP-ViL
3
Motivation
视觉和语言(V&L)任务能够测试系统在自然语言帮助下理解和推理视觉世界语义的能力。大多数V&L模型依靠视觉编码器感知视觉世界,将原始像素转换为表示空间的向量。
最近的工作表明,视觉表征已成为V&L模型的性能瓶颈,并强调学习强大视觉编码器的重要性。而高性能的视觉编码器通常是基于带有类别标签(如ImageNet)或边界框(如Visual Genome)的标注数据进行训练的。
然而,这类检测或图像分类数据的收集成本很高,并且视觉表示受到预定义类别标签的限制。因此,需要一种视觉编码器,该编码器在更加多样化和大规模的数据源上进行训练,不受固定标签集的限制,并且具有对没见过的对象和概念的泛化能力。
最近,CLIP被提出用来基