Google提出LaCLIP：大语言模型重写本文输入，让CLIP重焕光彩！

PaperWeekly

于 2023-07-21 12:17:15 发布

阅读量247

点赞数

文章标签：语言模型人工智能深度学习机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/131862233

版权

谷歌的研究人员提出了LaCLIP，通过使用大语言模型进行文本重写来增强CLIP的性能。这种方法在多个数据集上提高了CLIP的迁移学习性能，特别是在ImageNet上的零样本准确率上，LaCLIP分别比CLIP在CC12M和LAION-400M上提升了8.2%和2.4%。LaCLIP利用大型语言模型的In-Context Learning (ICL)能力，生成多样化的文本描述，增强了数据集的多样性，而不需要增加额外的计算或内存开销。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 岳廷

论文标题：

Improving CLIP Training with Language Rewrites

论文地址：

https://arxiv.org/pdf/2305.20088.pdf

引言

问题：CLIP 算法自出现以来，以其惊艳的效果爆火，其优点如下

可以从大规模的无标注或弱标注的（图像，文本）对中学习视觉概念，克服了传统视觉模型对有限类别标签的依赖。
可以利用自然语言作为一种灵活的预测空间，实现零样本或少样本的迁移学习，适应多种视觉任务。
可以提高视觉模型的泛化性和鲁棒性，在多个视觉基准测试中表现出色，甚至超过了在 ImageNet 上全监督训练的模型。

即使效果已经很惊艳，但纵观 CLIP 全篇，其数据增强主要集中在图像部分，文本部分的数据增强有限。

解决方案：来自谷歌的研究人员提出了一种名为 LaCLIP（Language augmented CLIP：LaCLIP）的简单而高效的方法，通过文本重写来增强 CLIP 的性能。利用大型语言模型的上下文学习能力，重新编写与每个图像相关的文本描述。这些重写的文本在句子结构和词汇方面具有多样性，同时保留了原始的关键概念和含义。通过该方法，显著提升 CLIP 性能！

效果：在 CC3M、CC12M、RedCaps 和 LAION-400M 数据集上进行的广泛实验表明，使用语言重写的 CLIP 预训练显著提高了迁移学习性能，在训练过程中没有新增计算或内存开销。具体而言，在 ImageNet 零样本准确率方面，LaCLIP 在 CC12M 上优于 CLIP 8.2%，在LAION-400M上优于CLIP 2.4%！

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Google提出LaCLIP：大语言模型重写本文输入，让CLIP重焕光彩！

©PaperWeekly 原创 ·作者 |岳廷论文标题：ImprovingCLIP Training with Language Rewrites论文地址：https://arxiv.org/pdf/2305.20088.pdf引言问题：CLIP 算法自出现以来，以其惊艳的效果爆火，其优点如下可以从大规模的无标注或弱标注的（图像，文本）对中学习视觉概念，克服了传统视觉模型对有限类别标签的依赖...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。