
CLIP模型使用方法
对比训练:在batch中计算所有图像与文本的余弦相似度,每个图文对的相似度最高,处在对角线上,其余相似度低。文本编码使用Transformer,输出[batch_size,text_feature]图像编码使用ViT,输出[batch_size,picture_feature]3.3使用CLIP训练Logistic回归模型,分类CIFAR100。首先,每个batch的图文对分别进行图像编码和文本编码。输入一张图片,设置几个类别,输出softmax概率分布。本文主要记录CLIP模型的原理,安装,基本使用。




















