论文阅读-CLIP(文本-图片多模态)Learning Transferable Visual Models From Natural Language Supervision

Paper:Learning Transferable Visual Models From Natural Language Supervision

Code:https://github.com/OpenAI/CLIP

引言:利用自然语言的监督信号去训练一个迁移效果很好的视觉模型,文字+图片多模态。

  • 其中,标签可以更改,不仅限于imageNet中的一千个类,可以换为任意的单词,图片也可以为任意的图片。

  • 彻底摆脱了分类标签这个性质,不论训练还是推理都不需要有提前定义好的类别。

  • 不仅能识别新的物体,而是真的把视觉和文字的语义联系到了一起,学到的特征语义性极强,迁移效果也很好。

在ImageNet数据集上训练的ResNet101准确率为76.2,与clip zero-shot迁移

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值