Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision

Abstract&Introduction&Related Work

  • 研究任务
    • 多模态对比学习+prompt
  • 已有方法和相关工作
  • 面临挑战
  • 创新思路
    • 使用文本和图像对配对来做无监督对比学习,并且使用prompt增强效果
  • 实验结论
    • sota
    • 有强大的zero-shot能力,可以匹敌ResNet50,甚至在一些任务上效果更好

CLIP

  • 将文本和图像经过Encoder抽取特征后,在一个batch里,对角线上的文本-图像对作为正样例,其余作为负样例进行对比学习
  • 在训练完整个模型后,使用prompt来增强模型的zero-shot能力,为每一个可能的类设计模板,并将分数最高的类作为最后的预测类别
    在这里插入图片描述

Natural Language Supervision

使用自然语言作为监督信号,把规模做大,并且不需要标注

Creating a Sufficiently Large Dataset

  • 自己弄了一个4亿 文本-图像对的数据集
  • 为了尽可能广泛地涵盖一组视觉概念,我们搜索(图像、文本)对,作为构建过程的一部分,其文本包括一组500000个查询中的一个,我们通过每个查询包含多达20000个(图像、文字)对来近似类平衡结果。结果数据集的总字数与用于训练GPT-2的WebText数据集相似。我们将此数据集称为WebImageText的WIT

Selecting an Efficient Pre-Training Method

  • 训练效率对多模态训练成功是至关重要的
  • 用图片来逐字逐句预测文本太难,而将其匹配很简单
  • 把预测性的目标函数换成对比型的,效率提高了四倍

在这里插入图片描述
CLIP的训练方法,非常简单

在这里插入图片描述

Choosing and Scaling a Model

  • 文本和图片编码器都不需要预训练
  • 使用了linear投射层,因为发现非线性没什么用(但是在单模态对比学习里面很游泳)
  • 数据增强只使用了crop
  • 温度设置成了可以学习的一个标量,直接优化掉
  • batch size 32768
  • 混合精度

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusions

我们研究了是否有可能将NLP中任务无关的网络规模预训练的成功转移到另一个领域

我们发现,采用该范式会使计算机视觉领域出现类似行为,并讨论了这一研究领域的社会影响。

为了优化训练目标,CLIP模型在预训练期间学习执行各种任务。然后,可以通过自然语言提示利用该任务学习,以实现对许多现有数据集的zero-shot。在足够的规模下,该方法的性能可以与任务特定的监督模型匹敌,尽管仍有很大的改进空间

Remark

算是小神作,实验巨大巨全,启发了后面多模态很多很多的工作,初步展现大模型在多模特领域的超强威力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值