多模态模型CLIP

一只叮铛

于 2024-08-09 10:49:41 发布

阅读量674

点赞数 23

文章标签： CLIP 目标检测多模态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_48627750/article/details/139679144

版权

Contrasitive Language-Image Pre-Training(利用文本的监督信号训练一个迁移能力强的视觉模型)
在传统的诗句任务中无法识别出我们训练之外的类别，训练1000个类别，预测就是者1000个类别的概率，无法拓展；如果新增类别还得重新训练不能一劳永逸，然而clip可以解决这个问题，可以不用学习新增类别就可以识别出新的类别。

CLIP 在完全不适用ImageNet中所有数据训练的前提下，直接Zero-short得到的结果与Resnet在128W Image数据训练后效果一样

如何训练模型（训练过程通过对比学习进行训练）

对图像数据中的文本标签（对图像的描述），我们使用CNN、TransFormer提取图像中的特征，将图像特征转成向量，并且将文本做成向量。I1、I2…IN表示的是不同的图像特征向量(可能I1是狗，I2是飞机…)，T1、T2…TN表示的是不同文本标签的特征向量(可能T1是“一只狗”，T2是一架飞机…)；CLIP在此过程中并不是计算这个Image图像中是什么（不是概率），而是相似度，狗这个图像和文本提取的特征哪个相似度最高（对比学习，来找出相似度最高的特征匹配）。所以在计算的时候我们只需要对角线上的描述相似度最高即可。因此这个过程中正样本(图像描述和文本描述相同一致的)有N个，负样本(图片和文本描述是不一致的)有N^2-N个。
在这里插入图片描述

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。