Contrasitive Language-Image Pre-Training(利用文本的监督信号训练一个迁移能力强的视觉模型)
在传统的诗句任务中无法识别出我们训练之外的类别,训练1000个类别,预测就是者1000个类别的概率,无法拓展;如果新增类别还得重新训练不能一劳永逸,然而clip可以解决这个问题,可以不用学习新增类别就可以识别出新的类别。
CLIP 在完全不适用ImageNet中所有数据训练的前提下,直接Zero-short得到的结果与Resnet在128W Image数据训练后效果一样
如何训练模型(训练过程通过对比学习进行训练)
对图像数据中的文本标签(对图像的描述),我们使用CNN、TransFormer提取图像中的特征,将图像特征转成向量,并且将文本做成向量。I1、I2…IN表示的是不同的图像特征向量(可能I1是狗,I2是飞机…),T1、T2…TN表示的是不同文本标签的特征向量(可能T1是“一只狗”,T2是一架飞机…);CLIP在此过程中并不是计算这个Image图像中是什么(不是概率),而是相似度,狗这个图像和文本提取的特征哪个相似度最高(对比学习
,来找出相似度最高的特征匹配)。所以在计算的时候我们只需要对角线上的描述相似度最高即可。因此这个过程中正样本(图像描述和文本描述相同一致的)有N个,负样本(图片和文本描述是不一致的)有N^2-N个。