【自监督论文阅读笔记】Learning Transferable Visual Models From Natural Language Supervision

(2021)

Abstract

        最先进的计算机视觉系统经过训练可以预测一组固定的预定对象类别。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据 来指定任何其他视觉概念直接从有关图像的原始文本中学习是一种很有前途的替代方案,它可以利用更广泛的监督来源。本文证明了预测哪个标题与哪个图像对应的简单预训练任务是一种有效且可扩展的方式,可以在从互联网收集的 4 亿(图像、文本)对数据集上从头开始学习 SOTA 图像表示。预训练后,使用自然语言来引用学习到的视觉概念(或描述新概念),从而实现模型到下游任务的零样本迁移。本文通过对 30 多个不同的现有计算机视觉数据集进行基准测试来研究这种方法的性能,涵盖 OCR、视频中的动作识别、地理定位 和 许多类型的细粒度对象分类等任务。该模型可以轻松地迁移到大多数任务,并且通常可以与完全监督的基线相媲美,而无需任何数据集特定的训练。例如,本文在 ImageNet 零样本上匹配原始 ResNet-50 的准确性,而无需使用它所训练的 128 万个训练示例中的任何一个。


1. Introduction and Motivating Work

        直接从原始文本中学习的预训练方法在过去几年彻底改变了 NLP(Dai & Le, 2015; Peters et al, 2018; Howard & Ruder, 2018; Radford et al, 2018; Devlin et al, 2018; Raffel等人,2019 年)。自回归 和 掩码语言建模 等与任务无关的目标已经在计算、模型容量和数据方面扩展了多个数量级,稳步提高了能力。 “文本到文本”作为标准化输入输出接口的发展(McCann 等人,2018 年;Radford 等人,2019 年;Raffel 等人,2019 年)使任务无关的架构 能够零样本迁移到下游数据集,从而无需专门的输出头或数据集特定的定制。像 GPT-3(Brown 等人,2020 年)这样的旗舰系统现在在使用定制模型的许多任务中具有竞争力,同时几乎不需要数据集特定的训练数据

        这些结果表明,现代预训练方法在 网络规模的文本集合 中 可获得的总监督 超过了 高质量人群标记的 NLP 数据集。然而,在计算机视觉等其他领域,在 ImageNet 等人群标记数据集上预训练模型仍然是标准做法(Deng 等人,2009 年)。直接从网络文本中学习的可扩展预训练方法能否在计算机视觉领域取得类似的突破?之前的工作令人鼓舞。

        20 多年前,Mori 等人 (1999) 探索通过训练模型来预测与图像配对的文本文档中的名词和形容词,从而改进基于内容的图像检索。 Quattoni 等人 (2007) 证明,通过在分类器的权重空间中进行流形学习,可以学习更多数据有效的图像表示,这些分类器经过训练可以预测与图像相关联的说明文字中的单词。 Srivastava & Salakhutdinov (2012) 通过在低级图像和文本标签特征之上训练多模式深度玻尔兹曼机来探索深度表征学习。 Joulin 等人 (2016) 对这一领域的工作进行了现代化改造,并证明经过训练以预测图像说明中的单词的 CNN 学习了有用的图像表示。他们将 YFCC100M 数据集(Thomee 等人,2016 年)中图像的标题、描述和主题标签元数据转换为词袋多标签分类任务,并表明预训练 AlexNet(Krizhevsky 等人,2012 年)以预测这些标签学习的表示,这些表示类似于基于 ImageNet 的传输任务预训练。 Li 等人 (2017) 然后将这种方法扩展到预测短语 n-grams 以及单个单词,并展示了他们的系统通过基于他们学习的视觉 n 字典对目标类进行评分来零样本转移到其他图像分类数据集的能力-grams 并预测得分最高的那个。 VirTex (Desai & Johnson, 2020)、ICMLM (Bulent Sariyildiz et al, 2020) 和 ConVIRT (Zhang et al, 2020) 最近采用了更新的架构和预训练方法,展示了基于转换器的语言建模的潜力,掩码语言建模,以及从文本中学习图像表示的对比目标。

        虽然作为概念证明令人兴奋,但使用自然语言监督进行图像表示学习仍然很少见。这可能是因为在通用基准测试中证明的性能远低于替代方法。例如,Li 等人 (2017) 在零样本设置下在 ImageNet 上的准确率仅为 11.5%。这远低于当前最先进技术 88.4% 的准确率(Xie 等人,2020 年)。它甚至低于经典计算机视觉方法的 50% 准确率(Deng 等人,2012 年)。相反,范围更窄但目标明确的弱监督使用提高了性能。 Mahajan 等人 (2018) 表明,预测 Instagram 图像上与 ImageNet 相关的主题标签是一项有效的预训练任务。当针对 ImageNet 进行微调时,这些预训练模型的准确性提高了 5% 以上,并改善了当时的整体技术水平。 Kolesnikov 等人 (2019) 和 Dosovitskiy 等人 (2020) 也证明了通过预训练模型预测带有噪声标记的 JFT-300M 数据集的类别,在更广泛的迁移基准上取得了巨大收益。

        这一系列工作代表了当前务实的中间立场,介于从有限数量的受监督“黄金标签”中学习和从几乎无限量的原始文本中学习。然而,它并非没有妥协。两者的作品都经过精心设计,并且在过程中将他们的监督分别限制在1000和18291个类别自然语言能够通过其泛化性 表达 并因此 监督更广泛的视觉概念集。这两种方法都使用静态 softmax 分类器来执行预测,并且缺乏动态输出机制。这严重削弱了它们的灵活性 并 限制了它们的“零样本”能力

        这些 弱监督模型 与 最近直接从自然语言学习图像表示 的探索之间的一个关键区别是 规模。 Mahajan 等人 (2018) 和 Kolesnikov 等人 (2019) 在数百万至数十亿张图像上训练了他们的加速器模型数年,而 VirTex、ICMLM 和 ConVIRT 在一到二十万张图像上训练了加速器数天。在这项工作中,本文缩小了这一差距 并 研究了 在大规模自然语言监督下训练的图像分类器的行为

        借助互联网上这种形式的大量公开可用数据,本文创建了一个包含 4 亿(图像、文本)对的新数据集,并论证了从头开始训练的 ConVIRT 的简化版本,我们称之为 CLIP,指的是对比语言-图像预训练,是一种从自然语言监督中学习的有效方法

        本文通过训练跨越近 2 个数量级的计算的一系列八个模型来研究 CLIP 的可扩展性,并观察到 迁移性能是计算的一个平滑可预测函数(Hestness 等人,2017 年;Kaplan 等人,2020 年)。本文发现 CLIP 与 GPT 家族类似,在预训练期间学习执行一系列广泛的任务,包括 OCR、地理定位、动作识别等。本文通过在 30 多个现有数据集上对 CLIP 的零样本迁移性能进行基准测试来衡量这一点,并发现它可以与先前的特定任务监督模型竞争。我们还通过线性探测表示学习分析证实了这些发现,并表明 CLIP 优于公开可用的最佳 ImageNet 模型,同时计算效率更高。本文还发现零样本 CLIP 模型比同等精度的监督 ImageNet 模型更稳健,这表明 任务未知模型的零样本评估更能代表模型的能力。这些结果具有重要的政策和伦理意义,我们在第 7 节中对此进行了考虑。


2. 方法

2.1. 自然语言监督

        本文方法的核心是 从自然语言中包含的监督中学习感知 的想法。正如引言中所讨论的,这根本不是一个新想法,但是用于描述该领域工作的术语多种多样,甚至看似矛盾,并且陈述的动机多种多样。 Zhang 等人 (2020)、Gomez 等人 (2017)、Joulin 等人 (2016) 和 Desai & Johnson (2020) 都介绍了从与图像配对的文本中学习视觉表示的方法,但分别将他们的方法描述为无监督、自监督、弱监督和监督。

        本文强调,这一类工作的共同点 不同特定方法的任何细节,而是将自然语言的鉴别作为训练信号。所有这些方法都是从自然语言监督中学习的。尽管早期的工作在使用主题模型和 n-gram 表示时 与 自然语言的复杂性 作斗争,但 深度上下文表示学习的改进 表明 我们现在拥有 有效利用这种丰富的监督资源的工具(McCann 等人,2017 年)。

        与其他训练方法相比,从自然语言中学习有几个潜在的优势

  • 与用于图像分类的标准众包标签相比,扩展自然语言监督要容易得多,因为它不需要注释采用经典的“机器学习兼容格式”,例如规范的 1-of-N 多数投票 “黄金标签” 。相反,适用于自然语言的方法可以从互联网上大量文本中包含的监督中被动学习
  • 与大多数无监督或自监督学习方法相比,从自然语言中学习也有一个重要的优势,因为它不仅“只是”学习一种表示,而且还将这种表示与语言联系起来,从而实现灵活的零样本迁移

在以下小节中,本文详细介绍了本文确定的具体方法。


2.2.创建足够大的数据集

        现有工作主要使用了三个数据集,MS-COCO (Lin et al, 2014)、Visual Genome (Krishna et al, 2017) 和 YFCC100M (Thomee et al, 2016)。虽然 MS-COCO 和 Visual Genome 是高质量的人群标记数据集,但按照现代标准,它们很小,每个数据集大约有 100,000 张训练照片。相比之下,其他计算机视觉系统接受了多达 35 亿张 Instagram 照片的训练(Mahajan 等人,2018 年)。拥有 1 亿张照片的 YFCC100M 是一个可能的替代方案,但每张图像的元数据稀疏 且 质量参差不齐。许多图像使用自动生成的文件名,如 20160716 113957.JPG 作为“标题”或包含相机曝光设置的“描述”。在过滤以仅保留具有自然语言标题和/或英文描述的图像后,数据集缩小了 6 倍,只有 1500 万张照片。这与 ImageNet 的大小大致相同。

        自然语言监督的一个主要动机是互联网上公开提供的大量这种形式的数据。由于现有数据集没有充分反映这种可能性,仅考虑它们的结果会低估这一研究领域的潜力。为了解决这个问题,本文构建了一个包含 4 亿对(图像、文本)对的新数据集,这些数据集是从 Internet 上的各种公开资源中收集的。为了尝试涵盖尽可能广泛的一组视觉概念,我们搜索(图像,文本)对作为构建过程的一部分,其文本包括一组 500,000 个查询中的一个。我们通过包括多达每个查询 20,000 个(图像、文本)对。生成的数据集的总字数与用于训练 GPT-2 的 WebText 数据集相似。本文将此数据集称为 WIT,即WebImageText


2.3.选择高效的预训练方法

        最先进的计算机视觉系统使用非常大量的计算。 Mahajan 等人 (20

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值