AI-多模态-2021：SLIP【对CLIP的改进】

u013250861

已于 2024-02-25 23:07:41 修改

阅读量457

点赞数

分类专栏： VLM/多模态文章标签： slip

于 2022-12-12 18:01:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/128290937

版权

VLM/多模态专栏收录该内容

27 篇文章 38 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

SLIP是由加州大学伯克利分校和Facebook AI研究院提出的多模态预训练框架，旨在结合语言监督和图像自监督。该框架针对CLIP的改进，探索了自监督学习在视觉识别任务上的优势能否提升语言模型的表现。SLIP在保持CLIP性能的同时，通过整合两种训练目标，尝试减少潜在的干扰，以实现更优的多模态理解能力。

摘要由CSDN通过智能技术生成

论文地址：https://arxiv.org/abs/2112.12750v1

项目地址：https://github.com/facebookresearch/SLIP

为了探究 CV 领域的自监督学习是否会影响 NLP 领域，来自加州大学伯克利分校和 Facebook AI 研究院的研究者提出了一种结合语言监督和图像自监督的新框架 SLIP。

近来一些研究表明，在具有挑战性的视觉识别任务上，自监督预训练可以改善监督学习。CLIP 作为一种监督学习新方法，在各种基准测试中都表现出优异的性能。

近日，为了探究对图像进行自监督学习的势头是否会进入语言监督领域，来自加州大学伯克利分校和 Facebook AI 研究院的研究者调查了 CLIP 形式的语言监督是否也受益于图像自监督。该研究注意到，将两种训练目标结合是否会让性能更强目前尚不清楚，但这两个目标都要求模型对有关图像的质量不同且相互矛盾的信息进行编码，因而会导致干扰。

当自监督遇上语言-图像预训练，UC伯克利提出多任务框架SLIP

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI-多模态-2021：SLIP【对CLIP的改进】

近日，为了探究对图像进行自监督学习的势头是否会进入语言监督领域，来自加州大学伯克利分校和 Facebook AI 研究院的研究者调查了 CLIP 形式的语言监督是否也受益于图像自监督。为了探究 CV 领域的自监督学习是否会影响 NLP 领域，来自加州大学伯克利分校和 Facebook AI 研究院的研究者提出了一种结合语言监督和图像自监督的新框架 SLIP。项目地址：https://github.com/facebookresearch/SLIP。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。