©PaperWeekly 原创 · 作者 | 岳廷
论文标题:
Improving CLIP Training with Language Rewrites
论文地址:
https://arxiv.org/pdf/2305.20088.pdf
引言
问题:CLIP 算法自出现以来,以其惊艳的效果爆火,其优点如下
可以从大规模的无标注或弱标注的(图像,文本)对中学习视觉概念,克服了传统视觉模型对有限类别标签的依赖。
可以利用自然语言作为一种灵活的预测空间,实现零样本或少样本的迁移学习,适应多种视觉任务。
可以提高视觉模型的泛化性和鲁棒性,在多个视觉基准测试中表现出色,甚至超过了在 ImageNet 上全监督训练的模型。
即使效果已经很惊艳,但纵观 CLIP 全篇,其数据增强主要集中在图像部分,文本部分的数据增强有限。
解决方案:来自谷歌的研究人员提出了一种名为 LaCLIP(Language augmented CLIP:LaCLIP)的简单而高效的方法,通过文本重写来增强 CLIP 的性能。利用大型语言模型的上下文学习能力,重新编写与每个图像相关的文本描述。这些重写的文本在句子结构和词汇方面具有多样性,同时保留了原始的关键概念和含义。通过该方法,显著提升 CLIP 性能!
效果:在 CC3M、CC12M、RedCaps 和 LAION-400M 数据集上进行的广泛实验表明,使用语言重写的 CLIP 预训练显著提高了迁移学习性能,在训练过程中没有新增计算或内存开销。具体而言,在 ImageNet 零样本准确率方面,LaCLIP 在 CC12M 上优于 CLIP 8.2%,在LAION-400M上优于CLIP 2.4%!