在本文中,您将了解“contrastive language-image pre-training”(CLIP),这是一种创建视觉和语言表示的策略,效果非常好,可用于制作高度特定且性能卓越的分类器,而无需任何训练数据。本文将介绍其理论,CLIP 与更传统的方法有何不同,然后逐步介绍其架构。
这对谁有用?任何对计算机视觉、自然语言处理 (NLP) 或多模态建模感兴趣的人。
经典图像分类器
在训练模型检测图像是猫还是狗时,一种常见的方法是向模型提供猫和狗的图像,然后根据误差逐步调整模型,直到学会区分两者。
这种传统的监督学习形式在许多用例中都是完全可以接受的,并且众所周知在各种任务中表现良好。然而,这种策略也会导致高度专业化的模型,这些模型仅在其训练的范围内表现良好。
将 CLIP 与传统的监督模型进行比较,每个模型都使用 ImageNet(一种流行的图像分类数据集)进行训练ÿ