论文原作:https:://arxiv.org/pdf/2103.00020
《Learning Transferable Visual Models From Natural Language Supervision》
论文导读:OpenAI于2021年2月发布的CLIP模型,以其简约而高效的设计迅速成为计算机视觉领域的明星。CLIP的zero-shot学习能力,即无需针对特定任务的训练即可在新数据集上表现出色的特性,令其备受瞩目。然而,CLIP真正的贡献在于它将自然语言的抽象概念引入到视觉识别中,为CV研究者开辟了新的视野。尽管CLIP在zero-shot方面的表现可能被过度夸大,但其对CV领域的深远影响和启发是不可否认的。CLIP的极简主义方法和强大的迁移学习能力,为视觉识别领域带来了革命性的变革。
0.摘要
想象一下,当前最先进的计算机视觉系统就像只会说几种语言的学生。它们被训练来识别一些特定的物体,比如猫、狗或汽车。但如果你想让它们识别其他东西,比如不同的植物或乐器,它们就无能为力了,除非你给它们更多的训练数据。
我们找到了一个新方法,让计算机视觉系统通过阅读图片的描述来学习。这就像是让它们通过阅读来了解世界,而不仅仅是通过看。具体来说,我们展示了一个简单的预训练任务:预测哪个标题与哪个图像相匹配。这种方法不仅高效,而且可扩展。我们利用互联网上收集的4亿对(图像,文本)对的数据集,从头开始学习最先进的图像表示。训练结束后,我们发现这些系统能够通过自然语言来识别和描述它们从未见过的物体。这就像是让它们在没有额外训练的情况下,也能识别出新的植物或乐器。
我们测试了这种方法在30多个不同的计算机视觉任务上的表现,包括识别照片中的文字、视频中的动作、确定照片的拍摄地点,以及识别不同种类的精细物体。结果表明,这种方法在大多数任务上都表现出色,甚至可以和那些经过大量训练的系统相媲美。
1.引言
近年来,自然语言处理(NLP)领域发生了翻天覆地的变化,这主要归功于一种叫做“预训练”的技术。这种技术让计算机能够通过阅读大量的文本来学习语言,而不需要针对特定任务进行训练。就像GPT-3这样的系统,它能够处理很多不同的任务,而且几乎不需要额外的训练数据。
然而,在计算机视觉领域,我们还在用一些老方法,比如用众包标注的数据集来训练模型。这让我们思考,能不能也用类似的方法来训练计算机视觉模型呢?一些早期的研究给了我们希望。
20多年前,研究人员就开始尝试让计算机通过阅读与图片相关的文本来学习识别图片。随着时间的推移,这项技术不断进步,比如通过训练模型来预测图片标题中的单词,或者用深度学习技术来更好地理解图片和文本之间的关系。