ECCV2024 | 小成本微调CLIP大模型！CLAP开源来袭：零样本和少样本训练有救了！

最新推荐文章于 2025-02-22 10:00:00 发布

AI生成未来

最新推荐文章于 2025-02-22 10:00:00 发布

阅读量3k

点赞数 32

分类专栏： AIGC 文章标签： CLIP AIGC ECCV2024 ECCV 小样本学习

本文链接：https://blog.csdn.net/AIGCer/article/details/140672597

版权

论文链接：https://arxiv.org/pdf/2311.16445
代码链接：https://github.com/YichaoCai1/CLAP

亮点直击

解耦潜在内容和风格因素：本文提出了一种通过对比学习和数据增强，从因果角度微调预训练CLIP类模型的原始特征，以改进其视觉-语言特征的方法。

定制化方法：本文提出了一种针对预训练CLIP类模型的定制化方法。该方法利用一个解耦网络，通过对比学习和图像增强进行训练，从CLIP类模型的图像编码器提供的学习特征中提取潜在内容特征。

带有增强提示的对比学习（CLAP）：本文提出了CLAP方法，用于从CLIP类模型的表示中提取潜在内容特征。该方法首先使用预训练的CLIP类模型的文本编码器和文本增强训练一个解耦网络，随后将训练好的解耦网络应用于CLIP类模型的图像编码器。

实验验证：在一个大型真实数据集上进行的实验表明，本文提出的图像增强和文本增强在zero-shot和few-shot性能方面的有效性，以及对各种扰动的稳健性。

对比视觉-语言模型（如CLIP）由于其学习特征的显著泛化能力，在各种下游任务中引起了广泛关注。然而，它们学习的特征往往将内容和风格信息混合在一起，这在一定程度上限制了它们在分布变化下的泛化能力。为了解决这一限制，本文采用多模态数据的因果生成视角，并提出通过对比学习和数据增强来解耦原始表示中的内容特征。为此，本文首先探索了图像增强技术，并开发了一种方法，将其无缝集成到预训练的类似CLIP模型中，以提取纯内容特征。更进一步地，认识到文本数据固有的语义丰富性和逻辑结构，本文探索了使用文本增强来隔离潜在的内容和风格特征。这使得类似CLIP模型的编码器能够专注于潜在的内容信息，从而通过预训练的类似CLIP模型精炼学习到的表示。本文在各种数据集上的广泛实验表明，在zero-shot和few-shot分类任务中取得了显著改善，同时提高了对各种扰动的稳健性。这些结果强调了本文所提方法在细化视觉-语言表示和推动多模态学习领域最新进展方面的有效性。