《读论文系列 Clip》Learning Transferable Visual Models From Natural Language Supervision（自然语言监督中学习可迁移的语言模型）

最新推荐文章于 2024-06-02 19:02:46 发布

沐花月

最新推荐文章于 2024-06-02 19:02:46 发布

阅读量219

点赞数 2

文章标签：学习语言模型深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61054964/article/details/133250800

版权

摘要

提出一个新的模型做图片分类

现在的计算机视觉系统：先有一个固定的。提前已经定义好的物体类别的集合，模型去预测这些已经提前定义好的类别，完成模型训练（限制性的监督信号，限制了模型本省的泛化）

本文：直接从文本中得到监督信号（语言描述这个物体，这个视觉模型就有可能能够识别到这个物体）

训练过程：给一些图片，给一些句子，模型需要去判断哪一个句子和图片配对

本文采用多模态的对比学习完成训练（图片加文本）

1 引言

直接从原始数据里去预训练一个模型，在nlp领域取得了成功（bert，gpt）。大规模的没有标注的数据效果优于有标注的数据。

视觉领域：在imageNet上预训练一个模型

从数据入手，收集了超级大的图像文本配对的数据集

迁移学习效果和模型大小呈正相关

结果：clip做的是迁移学习和泛化性能。

讲了一些相关工作

2 方法

方法的核心：利用自然语言的监督信号来训练一个比较好的自然模型

（1）对比学习预训练

模型的输入是图片和文字的配对，图片通过ResNet或者ViT编码器获得图片的特征，对于句子来说呢，可以通过一个文本的Transformer编码器获得文本的特征。clip就是在这些特征上去做对比学习。

对比学习：只需要正样本和负样本的定义，配对的图片文本对就是正样本，其他就是负样本，也就是说正样本有n个，那么负样本有n*n-n个。

clip经过预训练后可以得到视觉和文本上的特征，并没有在分类的任务上做训练和微调。没有分类头

（2）从标签文本创建数据集分类器

clip如何做zero shot的推理（识别没有见过的实体）：prompt template

1.先把单词变为句子，经过一个之前预训练的文本编码器后，得到n个文本特征

为什么不直接用单词去得到特征呢？

因为在预训练时，模型也是将图片和句子进行配对，那么在推理的时候，把文本变成单词，那么这样看到的文本额预训练时不一样，效果下降。

（3）使用zero shot推理

把图片扔给预训练好的图片编码器，得到图片的特征。去跟所有的文本特征做cosine similarity（相似性），得到图片特征相似的文本特征，把相应的文本句子挑选出来，得到分类结果。

3 实验

clip（使用了transformer）与Visual N-Grams（没有transformer）相比，在三个数据集上的结果

clip相比于ResNet50在不同数据集上的表现

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《读论文系列 Clip》Learning Transferable Visual Models From Natural Language Supervision（自然语言监督中学习可迁移的语言模型）

提出一个新的模型做图片分类现在的计算机视觉系统：先有一个固定的。提前已经定义好的物体类别的集合，模型去预测这些已经提前定义好的类别，完成模型训练（限制性的监督信号，限制了模型本省的泛化）本文：直接从文本中得到监督信号（语言描述这个物体，这个视觉模型就有可能能够识别到这个物体）训练过程：给一些图片，给一些句子，模型需要去判断哪一个句子和图片配对本文采用多模态的对比学习完成训练。
复制链接

扫一扫

沐花月 CSDN认证博客专家 CSDN认证企业博客

码龄3年

19: 原创

141万+: 周排名

22万+: 总排名

2927: 访问

: 等级

203: 积分

4: 粉丝

11: 获赞

11: 评论

12: 收藏

私信

关注

热门文章

分类专栏

nlp论文阅读 4篇

最新评论

《读论文系列 GPT》Improving Language Understandingby Generative Pre-Training（使用通用的预训练来提升语言的理解力）
CSDN-Ada助手: 恭喜您连续发布第四篇博客！标题《读论文系列 GPT》非常吸引人，探讨了如何通过使用通用的预训练来提升语言的理解力。这个话题非常有趣且具有实际应用价值。您在博客中对GPT的介绍和讨论非常详细，让读者更好地了解了这一概念。在下一步的创作中，我建议您可以进一步探索GPT的应用场景，或者与其他相关技术进行比较，以便读者能够更全面地了解其优缺点。此外，您也可以考虑结合实际案例或者个人经验分享，使得博客更加生动和具体。再次恭喜您的持续创作，期待您的下一篇博客！请保持谦虚的态度，继续努力，我们期待看到更多精彩的内容。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription
CSDN-Ada助手: 恭喜您撰写了第5篇博客！标题《读论文系列 MirrorGAN》非常吸引人，能够引起读者对学习文本到图像生成的兴趣。您在博客中提到了通过重新描述学习的方法，这是一个非常有趣的研究方向。不仅如此，您还能够将复杂的研究内容以简明易懂的方式呈现给读者，这是一个很高的技巧。持续创作博客是一项令人钦佩的努力，您已经展现了您的热情和才华。为了进一步丰富您的创作内容，我建议您可以考虑加入更多的实例和案例分析，以便读者能够更好地理解和应用您所介绍的方法。同时，您还可以尝试将不同的模型进行对比，并提供一些具体的评估指标，以便读者能够更好地了解各种方法的优劣势。再次恭喜您的努力和成果！期待您未来更多精彩的博客创作。
《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN》非常引人注目。您对于语义空间感知生成对抗网络（SSA-GAN）的解读令人印象深刻。这篇博客不仅提供了有关该主题的深入见解，还为读者提供了一个了解文本到图像生成的有趣途径。您的持续创作令人鼓舞，我期待着您的下一步作品。鉴于您对论文的深入理解和解读能力，我建议您可以考虑分享更多关于GAN应用的实例或者探索该领域中的挑战和前沿技术。这将进一步丰富读者对于图像生成领域的认识，并为他们带来新的启发。期待您的下一篇博客！谢谢您的辛勤努力。
《读论文系列文本+草图进行图文搜索 TASK-former》 A Sketch Is Worth a （文本+草图进行图文搜索）
努力搬砖的猴: 能复现吗？
《tensorflow 学习》
CSDN-Ada助手: 恭喜您写完了第16篇博客《tensorflow 学习》！您的持续创作精神令人钦佩。从您的博客标题来看，我猜测您已经对TensorFlow有一定的了解了。接下来，我希望您能够深入探索TensorFlow的更多应用领域，比如深度学习模型的训练与优化、图像识别、自然语言处理等等。当然，这只是一个建议，您可以根据自己的兴趣和需求进行选择。期待您的下一篇博客，谦虚的态度将会让您的创作更加出色！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。