CLIP:基于自然语言监督信号的迁移视觉模型

2月25月随笔:

    最近在关注自动标注领域的工作,发现了一篇有趣的文章:openai的多模态对比学习《基于自然语言监督信号的迁移视觉网络模型》,在imagenet 上zero shot 效果和有监督训练好的ResNet 50媲美(⊙o⊙)

     其实从bert 开始,自然语言处理和计算机视觉的结合就势不可挡,之后的各种vision transform 更是如同雨后春笋,但clip 是第一次把图片与文字的结合做到了极致。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkB3aW5kIGZhZGVk,size_20,color_FFFFFF,t_70,g_se,x_16 

    原理简单有效:有n个图片文本对,使用编码器分别提取出n个文本和n个图像特征,clip在这些特征上做对比学习(特征矩阵对角线为正样本)。对于任何新数据集里的任意图片,clip 只需要计算图片特征向量和每一个类别的文本向量的余弦,返回最大值对应的类别即可。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkB3aW5kIGZhZGVk,size_20,color_FFFFFF,t_70,g_se,x_16 

    clip说是zero shot ,但通过在预训练阶段提供大量文本-图片对形式的“标签"为模型训练提供了一定的监督(不愧是财大气粗的openai ,直接给整了有4亿个低噪声的图片文本对的超级数据集外加8个tpu 年的训练周期(๑°⌓°๑))不过直接通过自然语言而非绝对标签学习图像内容更符合人类直觉,也和我们自己的学习过程与判别逻辑更相似。所以clip 的泛化性能好得离谱,什么做OCR ,情绪识别或自然语言图片检索都不在话下(ios相册搜索赶紧升级呀)。

到手时间到!

尝试用clip 自带的demo程序做了一个简陋的情绪识别查询(把情绪形容词作为待配对文本信息即可)↘

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkB3aW5kIGZhZGVk,size_20,color_FFFFFF,t_70,g_se,x_16

对付一般的现实图片 ,简直绝杀,最大值比其他值高了1到3个数量级

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkB3aW5kIGZhZGVk,size_20,color_FFFFFF,t_70,g_se,x_16

 

clip 强大之处在于优秀的泛化性能,动画图片也不在话下

    cv 与nlp这俩最热门的领域算是打通了计算机读与看的隔阂,有点期待人工智能兼具五感的情形(๑‾ ꇴ ‾๑)

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wind faded

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值