[阅读笔记6][CLIP]Learning Transferable Visual Models From Natural Language Supervision

CCloth

已于 2024-04-20 20:57:15 修改

阅读量199

点赞数 3

文章标签：笔记

于 2024-04-15 11:57:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55982600/article/details/137775505

版权

这篇是clip的论文，openai于2021年提交。

这篇论文也借鉴了对比学习的思想，借助图文匹配信息来训练图像和文本编码器，使图像特征和文本特征处于同一特征空间。
思路很简单，这张图就可以很好反应模型的整体思想。先收集一个图文匹配的数据集，然后用对比损失来训练两个编码器。
训练好以后，以图像分类举例，将图像转为图像特征向量，然后和文本特征向量逐一对比。类别就是相似度最高的那个。
这种方法不同于moco之类的对比学习方法，像moco这样的单模态特征提取器再厉害，对图像特征提取的再好，也需要根据具体任务来微调。而clip这种多模态编码器训练好之后就可以zero-shot地用在其他任务上了，不需要任何微调。但是clip用在VQA这种复杂任务上还没有那么厉害。

clip的伪代码比moco还简单，一共就九行代码。之前也有类似的工作，但效果都没有clip这么好，为什么clip这么简单效果还这么好？主要是clip使用了大数据集和大模型。数据集是openai自己收集的包含4亿对图文匹配的数据集，模型有resnet版和vit版，但不管哪个都需要上百张v100训练十几天。

最后是clip的结果展示，左图是zero-shot对比有监督的resnet50，即使是zero-shot也在大部分数据集上取得优势。右图是对比resnet101，可以看到clip鲁棒性很强，在对抗性样本上准确率依然很高。

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[阅读笔记6][CLIP]Learning Transferable Visual Models From Natural Language Supervision

数据集是openai自己收集的包含4亿对图文匹配的数据集，模型有resnet版和vit版，但不管哪个都需要上百张v100训练十几天。这种方法不同于moco之类的对比学习方法，像moco这样的单模态特征提取器再厉害，对图像特征提取的再好，也需要根据具体任务来微调。最后是clip的结果展示，左图是zero-shot对比有监督的resnet50，即使是zero-shot也在大部分数据集上取得优势。这篇论文也借鉴了对比学习的思想，借助图文匹配信息来训练图像和文本编码器，使图像特征和文本特征处于同一特征空间。
复制链接

扫一扫

CCloth CSDN认证博客专家 CSDN认证企业博客

码龄3年

410: 原创

17万+: 周排名

1万+: 总排名

15万+: 访问

: 等级

4584: 积分

325: 粉丝

462: 获赞

53: 评论

578: 收藏

私信

关注

热门文章

分类专栏

最新评论

[阅读笔记23][JAM]JOINTLY TRAINING LARGE AUTOREGRESSIVE MULTIMODAL MODELS
ha_lydms: 这个博客的排版和设计都非常专业，让阅读变得更加愉快。
[阅读笔记10][instructBLIP]Towards General-purpose Vision-Language Models with Instruction Tuning
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
[阅读笔记18][CITING]LARGE LANGUAGE MODELS CREATE CURRICULUM FOR INSTRUCTION TUNING
程序小勇: 哈哈哈，已经三连，望互关互粉，谢谢！向大哥学习，请多多指教！博主优质好文，技术分享到位，由浅入深，循序渐进，有深度，也不失广度.愿我们IT技术蓬勃发展，再创辉煌佳绩，相信有一天我们的技术也可以走向世界，改变世界。
[贪心][二分]Occupy the Cities 2021CCPC桂林站G
CCloth: 要先把已经确定方向的1扩展完，所以是在11001000的基础上判断第二个1往哪边扩
[贪心][二分]Occupy the Cities 2021CCPC桂林站G
LETTER•: 贪心对10001000是不是有问题，第二个1向左侧不能让时间最小

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。