文章目录

摘要
论文描述了一种先进的计算机视觉系统,该系统利用图像和文本对进行预训练,以学习图像表示。这种方法与传统的监督学习方法不同,传统方法通常依赖于预先定义的对象类别来训练模型。而这里描述的方法更灵活,因为它可以从大量的互联网图像-文本数据中直接学习,而不需要为每个新的视觉概念准备额外的标注数据。
让我们逐步分析:
-
预测固定对象类别:传统的计算机视觉系统是基于监督学习训练的,它们被教导识别一组固定的、预先确定的对象类别(例如猫、狗、汽车等)。这种方式虽然有效,但其泛化能力和应用范围受到限制,因为每当需要识别新的类别时,就必须收集和标注新的训练数据。
-
从原始文本学习:相比之下,文中提到的方法采用了一种不同的方式——直接从包含图像和相关文本描述的数据集中学习。这些文本提供了比单纯的对象标签更丰富的信息来源,因此可以用来指导模型理解更加多样化的视觉概念。
-
大规模预训练任务:具体来说,这个新方法通过一个简单的预训练任务来学习,即让模型学会将给定的文本描述与相应的图像匹配起来。这在4亿个图像-文本对的数据集上执行,这些数据是从互联网收集来的。
-
零样本迁移能力:经过这样的预训练后,模型能够使用自然语言来引用已经学到的视觉概念或描述新的概念,并且可以在没有额外特定数据集训练的情况下,将所学知识迁移到下游任务中,也就是所谓的“零样本”(zero-shot)迁移学习。
-
性能评估:为了评估这种方法的有效性,研究者们在一个超过30个不同现有计算机视觉数据集上的基准测试中进行了考察,涵盖的任务包括光学字符识别(OCR)、视频中的动作识别、地理定位以及各种细粒度的对象分类。结果显示,模型在大多数任务上都能非平凡地迁移,并且经常能够在不使用任何特定数据集训练的情况下与完全监督的方法相媲美。
-
实例表现:例如,在ImageNet数据集上,该模型在零样本情况下达到了与原ResNet-50相同的准确率,而无需使用ResNet-50训练时所依赖的128万张图片。
总之,作者介绍了一种新颖的计算机视觉模型训练方法,它通过利用大量图像-文本对来进行预训练,从而实现了强大的零样本迁移学习能力,并在多个任务上展现了出色的性能。这种方法代表了计算机视觉领域的一个重要进步,因为它减少了对大量标注数据的依赖,增加了模型的通用性和灵活性。
1 简介和相关工作
在过去几年中,直接从原始文本中学习的预训练方法给 NLP 带来了革命性的变化。
任务无关的训练目标,如自回归和掩码语言建模,在计算、模型容量和数据方面已经跨越了许多数量级,稳步提高了能力。作为标准化输入输出接口的 “文本到文本”(McCann 等人,2018 年;Radford 等人,2019 年;Raffel 等人,2019 年)的发展使任务无关架构能够zero-shot迁移到下游数据集,无需专门的输出头或数据集规格定制。GPT-3(Brown 等人,2020 年)等旗舰系统目前在许多任务中都具有定制模型的竞争力,同时几乎不需要数据集规格化的训练数据。
这些结果表明,现代预训练方法在网络规模的文本集中所能获得的监督总量超过了高质量的人群标签 NLP 数据集。然而,在计算机视觉等其他领域,在人群标签数据集(如 ImageNet)上预训练模型仍然是标准做法(Deng 等人,2009 年)。**直接从网络文本中学习的可扩展预训练方法能否在计算机视觉领域带来类似的突破?**先前的工作令人鼓舞。
20 多年前,Mori 等人(1999 年)通过训练一个模型来预测判断与图像配对的文本文档中的名词和形容词,探索如何改进基于内容的图像检索。Quattoni 等人(2007 年)证明,通过在分类器的权重空间中进行流形学习来预测与图像相关的标题中的单词,可以学习到更多数据高效的图像表征。Sri- vastava & Salakhutdinov(2012)通过在低级图像和文本标签特征上训练多模态深度玻尔兹曼机,探索了深度表征学习。Joulin 等人(2016 年)对这一研究方向进行了现代化改造,并证明经过训练的 CNN 可以预测图像标题中的单词,从而学习有用的图像表征。他们将 YFCC100M 数据集(Thomee 等人,2016 年)中图像的标题、描述和标签元数据转换为词袋多标签分类任务,并证明预训练 AlexNet(Krizhevsky 等人,2012 年)来预测这些标签所学习到的表征在转移任务中的表现与基于 ImageNet 的预训练类似。随后,Li 等人(2017 年)又将这一方法扩展到了预测单个单词以外的短语,并证明了他们的系统能够将zero-shot迁移到其他图像数据集上。VirTex (Desai & Johnson, 2020)、ICMLM (Bulent Sariyildiz et al, 2020)和 Con- VIRT (Zhang et al, 2020)采用了最新的架构和预训练方法,展示了基于Transformer的语言建模、遮蔽语言建模和对比目标从文本中学习年龄表征的潜力。
使用自然语言监督进行图像表征学习虽然是令人兴奋的概念证明,但仍然很少见。这很可能是因为在通用基准上的表现远低于其他方法。例如,Li 等人(2017 年)在zero-shot设置下的 ImageNet 上仅达到 11.5% 的准确率。这远远低于当前技术水平的 88.4% 的准确率(Xie 等人,2020 年)。它甚至低于经典计算机视觉方法 50% 的准确率(Deng 等人,2012 年)。相反,范围更窄但目标更明确的弱监督使用却提高了性能。Mahajan 等人(2018)的研究表明,预测 Instagram 图像上的 ImageNet 相关标签是一项有效的预训练任务。在对 ImageNet 进行微调后,这些预训练模型的准确率提高了 5%以上,并改善了当时的整体技术水平。Kolesnikov 等人(2019 年)和 Dosovitskiy 等人(2020 年)也通过预训练模型来预测噪声标签 JFT-300M 数据集的类别,在更广泛的传输基准集上取得了巨大的收益。
这一研究方向代表了当前从有限的超级 “金标签 ”中学习和从几乎无限量的原始文本中学习的实用中间路线。然而,它也并非没有缺陷。这两部作品都经过精心设计,并在设计过程中将其监督范围分别限制在 1000 类和 18291 类。自然语言具有通用性,能够表达更广泛的视觉概念,因此也能监督更广泛的视觉概念。这两种方法都使用静态软最大分类器来执行预测,缺乏动态输出机制。这严重削弱了它们的灵活性,也限制了它们的 “zero-shot”能力。
这些弱监督模型与最近直接从自然语言学习图像表征的探索之间的一个关键区别在于规模。Mahajan 等人(2018 年)和 Kolesnikov 等人(2019 年)在数百万到数十亿张图像上进行了长达数年的模型训练,而 VirTex、ICMLM 和 ConVIRT 则在一到二十万张图像上进行了长达数天的训练。在这项工作中,我们缩小了这一差距,研究了在大规模自然语言监督下训练的图像分类器的行为。在互联网上大量公开数据的支持下,我们创建了一个包含 4 亿对(图像、文本)数据的新数据集,并证明了从头开始训练的 ConVIRT 简化版(我们称之为 CLIP,即强制语言图像预训练)是一种高效的自然语言监督学习方法。我们研究了 CLIP 的可扩展性,训练了一系列 8 个模型,计算量几乎达到 2 个数量级,并发现迁移性能是计算量的平稳可预测函数(Hestness 等人,2017 年;Kaplan 等人,2020 年)。我们发现,CLIP 与 GPT 系列类似,能在预训练期间学会执行各种任务,包括 OCR、地理定位、动作识别等。我们通过对 CLIP 在 30 多个现有数据集上的zero-shot迁移性能进行基准测试来衡量这一点。并且发现,与之前的任务特定监督模型相比,CLIP 具有很强的竞争力。我们还通过linear-probe表示学习分析证实了这些发现,并表明 CLIP 的性能优于最佳的公开 ImageNet 模型,同时还更节省计算。此外,我们还发现,zero-shot的 CLIP 模型比同等精度的监督 ImageNet 模型更稳健,这表明对任务无关模型的zero-shot评估更能代表模型的能力。这些结果具有重要的政策和伦理意义,我们将在第 7 节中讨论。
2 方法
2.1 自然语言监督
我们方法的核心是通过自然语言中的监督来学习感知。正如导言中所讨论的,这根本不是什么新想法,但用于描述这一领域工作的术语多种多样,甚至似乎相互矛盾,而且所述动机也各不相同。Zhang 等人(2020 年)、Gomez 等人(2017 年)、Joulin 等人(2016 年)和 Desai & Johnson(2020 年)都介绍了从与图像配对的文本中学习视觉表征的方法,但他们将自己的方法分别描述为无监督、自监督、弱监督和有监督。
我们要强调的是,这些方法的共同点不在于所使用的特定方法的任何细节,而在于将自然语言作为训练信号。所有这些方法都是从“自然语言监督”中进行学习。虽然早期的工作在使用主题模型和 n-gram 表示法时与自然语言的复杂性进行了斗争,但深度上下文表示法学习的改进表明,我们现在拥有了有效利用这一丰富监督来源的工具(McCann 等人,2017 年)。
与其他训练方法相比,从自然语言中学习具有多种潜在优势。与用于图像分类的标准众包标签相比,自然语言监督更容易扩展,因为它不要求注释采用经典的 “机器学习兼容格式”,如典型的