[OPENAI2021力作][CLIP: Connecting Text and Images]

最新推荐文章于 2025-04-15 10:07:17 发布

置顶 sooner高

最新推荐文章于 2025-04-15 10:07:17 发布

阅读量6.5k

点赞数 15

分类专栏：深度学习机器学习算法文章标签： CLIP OPENAI 图像领域的GPT

原文链接：https://openai.com/blog/clip/#rf23

版权

算法同时被 3 个专栏收录

49 篇文章

订阅专栏

深度学习

47 篇文章

订阅专栏

机器学习

39 篇文章

订阅专栏

OpenAI提出了一种名为CLIP的神经网络，它能从自然语言监督信号中有效提取视觉信息，实现多任务的零样本学习。CLIP通过大量互联网上的文本-图像对进行训练，无需直接针对特定基准优化，从而展现出优秀的泛化能力和鲁棒性，尤其在非ImageNet数据集上的表现。与传统模型相比，CLIP在不牺牲性能的情况下，降低了数据成本和模型的狭窄性，提升了在现实世界场景中的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文翻译自OpenAI官方博客[1], 于2021年1月5日发布.

0. 前言

本博客是openAI的大佬们的全新作品，其提出了可以用于从自然语言监督信号中有效提取视觉信息的，名为CLIP的神经网络. CLIP可以被用于任何视觉分类的benchmark(仅需提供其对应的视觉类别即可), 同GPT-2/3类似，有着强大的"zero-shot"能力。

我认为，CLIP和DALLE这2篇论文，核心是将万能的预训练模型扩展到多模态领域(visual-natural language)。这真心非常强…

1. 开篇介绍

尽管深度学习已经将计算机视觉进行了革命性的改造，但目前的方法还有一些主要的问题需要解决:

典型的vision数据集的构造通常是需要**很多人工标注(labor intensive)**并且价格昂贵。
典型的vision模型大多只能在单一任务上发挥作用，迁移到其它任务的能力非常弱。
在benckmark上表现很不错的vision模型，通常在压力测试(比如对实际生产场景中的数据)中表现不佳[2,3,4,5]。这让人们对基于深度学习的Computer Vision产生了怀疑。

OpenAI的大佬们(Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger, Sandhini Agarwal)提出了CLIP来尝试解决这些问题。其中数据方面: 作者们的原话是: " it is trained on a wide variety of images with a wide variety of natural language supervision that’s abundantly available on the internet. " 这也就是说，OpenAI搜集了大量的互联网数据来训练CLIP这个多模态(multi-model)模型。通过设计，该网络可以用自然语言指导执行各种benchmark数据的分类任务，而无需直接优化基准的性能，类似于GPT-2[6]和GPT-3[7]的“zero-shot”能力。

此处有一个关键的改变: 由于网络本身并没有直接对benchmark数据集进行优化(即没有对benchmark数据集进行finetune)，而如下图的结果体现出了，CLIP模型的鲁棒性相比在IMageNet上训练的Resnet50，最好时要高出将近 $75\%$ 。

aaasdas

尽管CLIP和Resnet都在ImageNet的测试集有相同的精度，但是CLIP的性能更能代表它将在不同的，非imagenet的数据集(in the wild data)上的效果。例如，ObjectNet检查模型识别不同姿势和家庭背景下物体的能力，而ImageNet Rendition和ImageNet Sketch检查模型识别更抽象物体描述的能力。

2. 背景&相关工作

CLIP的全称是Contrastive Language-Image Pre-training，其架构建立在大量的zero-shot transfer, natural language supervision和multimodel learning的工作中。

关于zero-data learning的概念可以追溯在10前的工作了[8]，虽然过去比较久了，但其实zero-data learning在目前(2021年)也是计算机视觉领域的最受人关注的研究方向，目标是让模型能在其处理未见过的数据时仍然能够保持良好的性能[9,10]。

一个重要的insight是利用自然语言作为一个 灵活的预测空间(a flexible prediction space) 来实现泛化和迁移。在2013年，斯坦福大学的Richer Socher和其合作者们发现[11]，通过在CIFAR-10上训练一个模型，在**词向量嵌入空间(word vector embedding)**中进行预测，开发了一个概念证明，并表明该模型可以预测两个未见类。同年，DeVISE[12]将此方法的应用进行扩充，并证明了这种思路可以用于finetune一个ImageNet的网络模型，使模型能够 正确的预测除原始数据集提供的1000类以外的其它类别。

促成CLIP的诞生的最重要的论文当属Ang Li和其合作者在FAIR发表的论文 《Learning visual n-grams from web data》(ICCV2017), 用自然语言监督信号来让促成在一些现存的CV分类数据集(包含ImageNet数据集)实现zero-shot transfer。

他们通过对在ImageNet训练的CNN模型进行fine-tune，从3000万Flickr照片的标题、描述和标签的文本中预测出更广泛的视觉概念(视觉n-gram)，并在ImageNet zero-shot上达到11.5%的准确性。

最后，CLIP属于根据自然语言监督信号来学习视觉表征的论文范畴。CLIP使用了更为先进的架构: Transformer[14]，探索了自回归语言建模(autoregressive language modeling)的VirTex[15], ICMLM[16]: 研究了masked的语言模型, ConVIRT[17]: 研究和CLIP相同的目标，但是用在医疗成像领域。

3. 方法

CLIP作者们发现，可以仅凭对一个简单预训练任务进行scaling就可以在大量的图像分类数据集上达到良好的zero-shot性能。CLIP的方法使用了非常丰富的监督信号：

文本和其对应的图片对(互联网中找到)

此数据用于为CLIP创建以下代理训练任务: 给定一张图片，在我们的数据集中，从32,768个随机抽样的文本片段中，预测哪一个文本片段与该图片匹配。

为了解决这个任务，CLIP的作者的直觉想法是：让CLIP模型学习识别图片中的大量的visual concepts并将其与对应的文本名字联系起来。

结果是，CLIP模型可以被用于几乎任何视觉分类任务中。举个例子，如果一个数据集的任务是将进行猫狗的2分类，我们就会检查每个图像，看CLIP模型预测的文本描述“狗的照片”或“猫的照片”中哪个更有可能与此图像配对。

在这里插入图片描述

CLIP预训练一个image encoder和一个text encoder，训练的目标是让图片和文字被编码出的latent code匹配。我们利用这种思路，将CLIP转换为zero-shot分类器。我们将数据集的所有类别转换为标题，如“一张狗的照片”，并由CLIP预测图片的最佳配对文本。

设计CLIP的意义是缓解/减轻深度学习中的一些主要问题:

Costly datasets
深度学习需要大量的数据，通常来讲，视觉模型是使用大量的手工标注的数据集来进行训练的。这意味着构造此种数据集是一件昂贵且有限的事情(因为只能提供有限的visual concept)。CLIP通过学习互联网上大量的text-image pairs，这有效的减少了手工标注数据的复杂性和成本。减少对昂贵的大型标记数据集的需求已经在之前的工作中得到了广泛的研究，特别是self-supervised learning(自监督) [18,19,20], contrastive methods(对比学习) [21,22,23,24,25], self-training 方法[26,27]以及生成模型[28,29]。
Narrow

每个数据集都是有限的，没有一个能够包含所有类别数据的数据集。如果我们想要将在ImageNet上训练的模型用于其它的分类任务，那么这意味着我们需要构造一个新的数据集，并在这个新数据集上优化模型以期达到目标性能。

CLIP因为使用了大量的现成互联网数据，因此可以用于非常广泛的视觉分类任务中而无需额外的训练样本。而使用CLIP的方式也很简单，即告诉CLIP的text encoder，任务的visual concept的名称即可，它将输出CLIP的视觉表示的线性分类器。而这个分类器的准确性经常与fully supervised 模型相差不多。

下面是一些随机挑选的zero-shot CLIP分类器在不同数据上的效果:

在这里插入图片描述

Poor real-world performance
深度学习系统经常被宣传在一些vision benchmark上达到甚至超过人类水平。然而，对于in-the-wild数据，这些基于深度学习的视觉模型性能会出现很大的下降，远低于我们的预期。换句话说，在benchmark和real-world数据存在较大的gap。

我们推测，之所以会出现这种差距，是因为这些模型“作弊”，即只对benchmark数据集的性能进行优化，这很像一个学生只学习过去几年考试中的问题就通过了考试（没有良好的迁移和泛化能力）。

CLIP模型由于使用了大量的pair数据，因此不需要再去在这些具体的任务上finetune(因为CLIP的见多识广)。这使得它的benchmark测试的结果更能代表它在in-the-wild数据上的性能。

为了验证“cheating hypothesis”，作者们还测试了CLIP模型在ImageNet上“学习”时的性能变化。当一个线性分类器使用CLIP的特征上进行分类任务训练时，它将CLIP在ImageNet测试集上的精度提高了近 $10\%$ ，但是这个现象在其它数据集上体现的并不明显[30]。

4. Key takeaways

4.1 `CLIP` is highly efficient

CLIP是从互联网中找的数据，特点是未经筛选，范围大，有大量的干扰数据影响，目标是被用于zero-shot范式。不同于GPT-2/3，CLIP的设计聚焦于减少所需算力，并提升训练的效率。

We report two algorithmic choices that led to significant compute savings.
在CLIP的实践中，有2个算法选择会极大的节省算力。

① 用contrastive objective来bridge gap between 图片和文本
在scaling小规模数据集的时候有极大的作用。

In small to medium scale experiments, we found that the contrastive objective used by CLIP is 4x to 10x more efficient at zero-shot ImageNet classification.

② 使用Vision Transformer

ViT[31]的使用相比传统Resnet有着近3倍的算力提升。OpenAI的最好的CLIP模型是在256个GPU上训练2周得到的。

在这里插入图片描述

我们最初探索了训练图像到标题的语言模型，但发现这种方法很难实现zero-shot transfer。在实验中，在4亿图片上训练的语言模型(language model)只能在ImageNet上达到16%的准确率，而CLIP的效率则要高的多，达到同样的精度的速度会比语言模型快10倍。

4.2 `CLIP` is flexible and general

由于可以学习到非常广泛的visual concept到自然语言的pair关系，CLIP模型显然比在ImageNet上训练的模型更加灵活和通用。

经过实验，作者发现CLIP可以在很多不同的任务上进行zero-shot迁移。为了验证性能，作者在超过30个不同的数据集上进行了CLIP的zero-shot的测试，包括: 细粒度目标分类(fine-grained object classification)，视频动作识别(action recognition in videos)，OCR等。

最好的CLIP模型在26个不同的迁移数据集中，在其中的20个数据集中超出了公开的最好的ImageNet模型以及Noisy Student EfficientNet-L2[27]。

在这里插入图片描述

通过27个数据集的测试，如fine-grained object classification, OCR, activity recognition in videos, and geo-localization，我们发现CLIP模型可以学习到更为有用的图像表征。CLIP模型也比我们之前比较的10种方法的模型计算效率更高。