2021:How Much Can CLIP Benefit Vision-and-Language Tasks?

最新推荐文章于 2024-04-27 09:40:06 发布

weixin_42653320

最新推荐文章于 2024-04-27 09:40:06 发布

阅读量3.5k

点赞数 1

分类专栏：视觉问答参考文章文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/121223100

版权

摘要大多现有的视觉和语言模型依赖预训练过的视觉编码器，使用一组相对较小的人工注释的数据来感知视觉世界，然而，我们观察到，大规模的预训练通常得到更好的泛化性能，如，CLIP(对比语言-图像预训练)，在大量的图像标注对上训练，在各种视觉任务上显示出强大的零样本性能。为进一步研究CLIP带来的优势，我们建议在两种典型的场景下，在各种视觉和语言模型上使用CLIP作为视觉编码器：（1）将CLIP插入到特定于任务的微调中；（2）将CLIP与V&L预训练相结合，并转移到下游任务中。发现，CLI...

摘要由CSDN通过智能技术生成

摘要

大多现有的视觉和语言模型依赖预训练过的视觉编码器，使用一组相对较小的人工注释的数据来感知视觉世界，然而，我们观察到，大规模的预训练通常得到更好的泛化性能，如，CLIP(对比语言-图像预训练)，在大量的图像标注对上训练，在各种视觉任务上显示出强大的零样本性能。为进一步研究CLIP带来的优势，我们建议在两种典型的场景下，在各种视觉和语言模型上使用CLIP作为视觉编码器：（1）将CLIP插入到特定于任务的微调中；（2）将CLIP与V&L预训练相结合，并转移到下游任务中。发现，CLIP显著优于广泛使用的用领域内的注释数据的视觉编码器，如BottomUp-TopDown。我们在不同V&L任务上取得了有竞争力或更好的结果，同时在视觉问答、视觉暗示和V&L导航任务上取得了最先进的结果。

一、介绍

大多数V&L模型依赖于视觉编码器来感知视觉世界，将原始像素转换为来自表示空间的向量。最近的研究观察到视觉表示已经成为V&L模型的性能瓶颈，并强调学习强大的视觉编码器的重要性。需要一个视觉编码器，在更多样化和大规模的数据源上进行训练，这些编码器不被一组固定的标签所限制，并具有对看不见的对象和概念的泛化能力。

最近，提出CLIP用于在语言监督下学习视觉概念。CLIP包括一个视觉编码器和一个文本编码器，是从互联网上爬取的4亿个噪声图像-文本对上进行训练的，因此数据收集过程是可伸缩的，不需人工注释。CLIP在ImageNet分类等基准上有很强的零样本能力。将CLIP作为一个零样本模型应用于V&L任务是困难的，因为很多V&L任务需要复杂的多模态推理，因此，我们建议使用CLIP的视觉编码器，用CLIP的视觉编码器取代现有的V&L模型的视觉编码器。

我们考虑以下两种典型情况：1）将CLIP插入直接的特定于任务的微调；2）将CLIP与图像文本对的V&L模型预训练集成，并转移到下游任务。将在这两种场景中使用的模型表示为CLIP-ViL(没有V&L预训练)和CLIP-ViLp(有V&L预训练)。

在直接特定于任务的微调中，在视觉问答任务中，CLIP-ViL在VQA v2.0上实现了1.4%的改善。在V&L预训练中，我们用CLIP取代传统的基于区域的表示，CLIP-ViLp在三个基准测试上表现好，并获得了最新结果（VQA在test-std上76.70%）。使用CLIP-Res50的CLIP-ViLp优于广泛使用的基于区域的编码器BottomUp-TopDown ResNet101，而且，使用CLIP-Res50x4的CLIP-ViLp超过了VinVL-ResNeXt152，这是目前的SotA，是基于区域的编码器的极端放大尝试。

二、背景和动机

视觉和语言模型：在图1中说明了典型的训练

最低0.47元/天解锁文章

weixin_42653320

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021:How Much Can CLIP Benefit Vision-and-Language Tasks?

摘要大多现有的视觉和语言模型依赖预训练过的视觉编码器，使用一组相对较小的人工注释的数据来感知视觉世界，然而，我们观察到，大规模的预训练通常得到更好的泛化性能，如，CLIP(对比语言-图像预训练)，在大量的图像标注对上训练，在各种视觉任务上显示出强大的零样本性能。为进一步研究CLIP带来的优势，我们建议在两种典型的场景下，在各种视觉和语言模型上使用CLIP作为视觉编码器：（1）将CLIP插入到特定于任务的微调中；（2）将CLIP与V&L预训练相结合，并转移到下游任务中。发现，CLI...
复制链接

扫一扫

专栏目录