论文阅读-CLIP（文本-图片多模态）Learning Transferable Visual Models From Natural Language Supervision

海拉鲁的小厨娘

已于 2023-02-17 15:29:53 修改

阅读量3.2k

点赞数 2

分类专栏：读论文文章标签：深度学习人工智能神经网络

于 2022-10-29 22:09:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43687860/article/details/127592932

版权

读论文专栏收录该内容

58 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

CLIP模型利用大规模的图文配对数据，通过自然语言监督信号训练，实现强大的零样本迁移能力。无需预先定义类别，模型在多个数据集上表现出优秀的泛化性能，尤其在物体识别上，与有监督的ResNet50效果相当。然而，对于抽象任务和特定领域任务，CLIP的性能有待提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Paper：Learning Transferable Visual Models From Natural Language Supervision

Code：https://github.com/OpenAI/CLIP

引言：利用自然语言的监督信号去训练一个迁移效果很好的视觉模型，文字+图片多模态。

其中，标签可以更改，不仅限于imageNet中的一千个类，可以换为任意的单词，图片也可以为任意的图片。

彻底摆脱了分类标签这个性质，不论训练还是推理都不需要有提前定义好的类别。

不仅能识别新的物体，而是真的把视觉和文字的语义联系到了一起，学到的特征语义性极强，迁移效果也很好。

了解本专栏

超级会员免费看

海拉鲁的小厨娘

博客等级

码龄6年

83
原创

296
点赞

1441
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

最新评论

论文阅读-Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery Detection（PFF)
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：One-for-More: Continual Diffusion Model for Anomaly Detection
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读-Rethinking Vision-Language Model in FaceForensics: Multi-Modal Interpretable ForgedFaceDetector
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：基于增强通用深度图像水印的混合篡改定位技术 OmniGuard
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt - 视觉语言模型越狱攻击BAP
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。