CLIP,Context

尽管深度学习彻底改变了计算机视觉,但当前的方法存在几个主要问题:典型的视觉数据集是劳动密集型的,创建成本高昂,同时只教授一小部分视觉概念;标准视觉模型擅长一项任务且仅擅长一项任务,并且需要付出大量努力才能适应新任务;在基准测试中表现良好的模型在压力测试中的表现令人失望,1,2,3,4 对计算机视觉的整个深度学习方法产生了怀疑。

我们提出了一个旨在解决这些问题的神经网络:它在各种图像上进行训练,并接受互联网上大量提供的各种自然语言监督。通过设计,可以用自然语言指示网络执行各种分类基准,而无需直接优化基准的性能,类似于 GPT-2 和 GPT-3 的“零样本”功能这是一个关键变化:通过不直接针对基准进行优化,我们表明它变得更具代表性:我们的系统缩小了高达 75% 的“鲁棒性差距”,同时在 ImageNet 零镜头上匹配原始 ResNet-50的性能,而无需使用任何原始的 128 万个标记示例。

背景及相关工作
CLIP(对比语言-图像预训练)建立在大量关于零镜头迁移、自然语言监督和多模式学习的工作之上。零数据学习的想法可以追溯到十多年前8,但直到最近才主要在计算机视觉中作为一种泛化到看不见的对象类别的方式进行研究。9,10 一个关键的见解是利用自然语言作为灵活的预测空间来实现泛化和转移。 2013 年,Richer Socher 和斯坦福大学的合著者11 通过在 CIFAR-10 上训练模型在词向量嵌入空间中进行预测来开发概念证明,并表明该模型可以预测两个看不见的类别。同年,DeVISE12 扩展了这种方法,并证明可以微调 ImageNet 模型,以便它可以泛化以正确预测原始 1000 个训练集之外的对象。

对 CLIP 最鼓舞人心的是 Ang Li 和他的合著者在 FAIR13 上的工作,他们在 2016 年展示了使用自然语言监督来实现零样本迁移到几个现有的计算机视觉分类数据集,例如规范的 ImageNet 数据集。他们通过微调 ImageNet CNN 从 3000 万张 Flickr 照片的标题、描述和标签文本中预测更广泛的视觉概念(视觉 n-gram),并在 ImageNet 上达到 11.5% 的准确率,从而实现了这一目标领样本。

最后,CLIP 是一组论文的一部分,这些论文重新审视了过去一年中从自然语言监督中学习视觉表示。这一系列工作使用更现代的架构,例如 Transformer,包括探索自回归语言建模的 VirTex,15,研究屏蔽语言建模的 ICMLM,16,以及研究我们用于 CLIP 的相同对比目标的 ConVIRT,17医学影像。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值