Raki的读paper小记：CLIP:Learning Transferable Visual Models From Natural Language Supervision

爱睡觉的Raki

于 2022-09-02 17:30:32 发布

阅读量938

点赞数

分类专栏： Multimodal 读paper 文章标签：人工智能深度学习计算机视觉机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Raki_J/article/details/126666709

版权

读paper 同时被 2 个专栏收录

83 篇文章

订阅专栏

6 篇文章

订阅专栏

Abstract&Introduction&Related Work

研究任务
- 多模态对比学习+prompt
已有方法和相关工作
面临挑战
创新思路
- 使用文本和图像对配对来做无监督对比学习，并且使用prompt增强效果
实验结论
- sota
- 有强大的zero-shot能力，可以匹敌ResNet50，甚至在一些任务上效果更好

CLIP

将文本和图像经过Encoder抽取特征后，在一个batch里，对角线上的文本-图像对作为正样例，其余作为负样例进行对比学习
在训练完整个模型后，使用prompt来增强模型的zero-shot能力，为每一个可能的类设计模板，并将分数最高的类作为最后的预测类别

Natural Language Supervision

使用自然语言作为监督信号，把规模做大，并且不需要标注

Creating a Sufficiently Large Dataset

自己弄了一个4亿文本-图像对的数据集
为了尽可能广泛地涵盖一组视觉概念，我们搜索（图像、文本）对，作为构建过程的一部分，其文本包括一组500000个查询中的一个，我们通过每个查询包含多达20000个（图像、文字）对来近似类平衡结果。结果数据集的总字数与用于训练GPT-2的WebText数据集相似。我们将此数据集称为WebImageText的WIT

Selecting an Efficient Pre-Training Method

训练效率对多模态训练成功是至关重要的
用图片来逐字逐句预测文本太难，而将其匹配很简单
把预测性的目标函数换成对比型的，效率提高了四倍

在这里插入图片描述
CLIP的训练方法，非常简单

在这里插入图片描述

Choosing and Scaling a Model

文本和图片编码器都不需要预训练
使用了linear投射层，因为发现非线性没什么用（但是在单模态对比学习里面很游泳）
数据增强只使用了crop
温度设置成了可以学习的一个标量，直接优化掉
batch size 32768
混合精度

Experiments

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Conclusions

我们研究了是否有可能将NLP中任务无关的网络规模预训练的成功转移到另一个领域

我们发现，采用该范式会使计算机视觉领域出现类似行为，并讨论了这一研究领域的社会影响。

为了优化训练目标，CLIP模型在预训练期间学习执行各种任务。然后，可以通过自然语言提示利用该任务学习，以实现对许多现有数据集的zero-shot。在足够的规模下，该方法的性能可以与任务特定的监督模型匹敌，尽管仍有很大的改进空间

Remark

算是小神作，实验巨大巨全，启发了后面多模态很多很多的工作，初步展现大模型在多模特领域的超强威力

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。