多模态模型CLIP

Contrasitive Language-Image Pre-Training(利用文本的监督信号训练一个迁移能力强的视觉模型)
在传统的诗句任务中无法识别出我们训练之外的类别,训练1000个类别,预测就是者1000个类别的概率,无法拓展;如果新增类别还得重新训练不能一劳永逸,然而clip可以解决这个问题,可以不用学习新增类别就可以识别出新的类别。

CLIP 在完全不适用ImageNet中所有数据训练的前提下,直接Zero-short得到的结果与Resnet在128W Image数据训练后效果一样

如何训练模型(训练过程通过对比学习进行训练)

对图像数据中的文本标签(对图像的描述),我们使用CNN、TransFormer提取图像中的特征,将图像特征转成向量,并且将文本做成向量。I1、I2…IN表示的是不同的图像特征向量(可能I1是狗,I2是飞机…),T1、T2…TN表示的是不同文本标签的特征向量(可能T1是“一只狗”,T2是一架飞机…);CLIP在此过程中并不是计算这个Image图像中是什么(不是概率),而是相似度,狗这个图像和文本提取的特征哪个相似度最高(对比学习,来找出相似度最高的特征匹配)。所以在计算的时候我们只需要对角线上的描述相似度最高即可。因此这个过程中正样本(图像描述和文本描述相同一致的)有N个,负样本(图片和文本描述是不一致的)有N^2-N个。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值