聊聊这两天刷屏的OpenAI新作，你注意到CLIP了吗-CSDN博客

点击上方，选择星标或置顶，每天给你送干货！

来自：李rumor

这两天被OpenAI的DALLE模型刷屏了，刚看到的时候，我主要滑了下图片生成的效果，感叹有钱真好，Transformer真NB，然后就关闭窗口了。但是后来我无聊着去读原博客时，才发现用来做rerank的CLIP模型一样牛啤，同时感叹一句：

You also need Contrastive Learning

CLIP的全称是Contrastive Language–Image Pre-training，为什么说对比学习也很重要呢？来看看它对模型精度和效率的提升吧：

再来感受一下CLIP最终的效果。用linear prob进行评估，在27个数据集的平均分数甩了其他模型好几条街。同时有20个都比ImageNet训练出来的开源SOTA表现好：

下面简要介绍一下CLIP是如何达到这么好效果的。

博文：https://openai.com/blog/clip/
论文：https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf
代码：https://github.com/openai/CLIP

翻墙不易，可在公众号「李rumor」后台回复0108获取。

原理

CLIP就像是图像届的GPT-2，输入图片，输出文本描述。正因为是描述，所以可以在各种图像分类任务上进行zero-shot。

OpenAI从网上搜集了400million未清洗的图像-文本pair数据，用对比学习目标进行训练：分别对图像和文本编码，然后两两计算cosine相似度，再针对每个图片的一行或文本的一列进行分类，找出匹配的正例。

用伪代码表示的话：

这里对于每个图像都有32,768个文本候选，足足有SimCLR的两倍，负例个数的增多也是效果好的原因之一。

在预测时也很简单，随便拿一个图像分类的数据集，把label转为自然语言，比如“狗”可以转为“一张狗的照片”。再用预训练好的编码器对label和图像编码，再去计算相似度即可。

CLIP效果这么好，除了数据多，作者主要提到了两个提效方法：

Contrastive learning Objective：如文章开头的图，比起语言模型那样一个个预测文本描述，对比学习可以提效4到10倍
Vision Transformer：直接把图像分成一个个patch，再过Transformer，比起ResNet编码提效3倍（真·Attention is all you need）

基于以上改进，最好的一版CLIP只在256个GPU上训练两周就好了，跟目前图像领域的其他大模型都差不多。

效果

开头已经展示得差不多了，再看看Non-cherry pick的预测结果：

对于图像领域，CLIP的贡献不可忽视，它可以缓解三个问题：

Costly datasets：之前大部分模型用的数据集都是人标的，而CLIP的训练数据都是从网上找的，用纯文本作为label，减少了人力成本
Narrow：根据有标注数据集训练的话输出是有限的，比如数据集只教模型预测猫和狗，那就没法再让模型去预测鸭子，而CLIP在常见图像上就不受限制
Poor real-world performance：benchmark和真实情况都是有gap的，在benchmark上表现好不意味着真实情景也好。而CLIP不是从某个特定数据集学出来的，可以缓解这个问题。作者也通过实验证实，如果面向ImageNet学习的话，虽然评估效果会提高，但其他7个数据集上都不太好