论文链接:https://arxiv.org/pdf/2311.16445
代码链接:https://github.com/YichaoCai1/CLAP
亮点直击
解耦潜在内容和风格因素:本文提出了一种通过对比学习和数据增强,从因果角度微调预训练CLIP类模型的原始特征,以改进其视觉-语言特征的方法。
定制化方法:本文提出了一种针对预训练CLIP类模型的定制化方法。该方法利用一个解耦网络,通过对比学习和图像增强进行训练,从CLIP类模型的图像编码器提供的学习特征中提取潜在内容特征。
带有增强提示的对比学习(CLAP):本文提出了CLAP方法,用于从CLIP类模型的表示中提取潜在内容特征。该方法首先使用预训练的CLIP类模型的文本编码器和文本增强训练一个解耦网络,随后将训练好的解耦网络应用于CLIP类模型的图像编码器。
实验验证:在一个大型真实数据集上进行的实验表明,本文提出的图像增强和文本增强在zero-shot和few-shot性能方面的有效性,以及对各种扰动的稳健性。
对比视觉-语言模型(如CLIP)由于其学习特征的显著泛化能力,在各种下游任务中引起了广泛关注。然而,它们学习的特征往往将内容和风格信息混合在一起,这在一定程度上限制了它们在分布变化下的泛化能力。为了解决这一限制,本文采用多模态数据的因果生成视角,并提出通过对比学习和数据增强来解耦原始表示中的内容特征。为此,本文首先探索了图像增强技术,并开发了一种方法,将其无缝集成到预训练的类似CLIP模型中,以提取纯内容特征。更进一步地,认识到文本数据固有的语义丰富性和逻辑结构,本文探索了使用文本增强来隔离潜在的内容和风格特征。这使得类似CLIP模型的编码器能够专注于潜在的内容信息,从而通过预训练的类似CLIP模型精炼学习到的表示。本文在各种数据集上的广泛实验表明,在zero-shot和few-shot分类任务中取得了显著改善,同时提高了对各种扰动的稳健性。这些结果强调了本文所提方法在细化视觉-语言表示和推动多模态学习领域最新进展方面的有效性。
通过数据增强将内容与风格分离
在本节中,作者提出使用数据增强从预训练的类似CLIP模型中提取内容信息。基本上,数据增强可以在改变风格因素的同时保留内容因素。因此,利用对比学习可以实现内容信息与风格信息的分离。本文将探讨两种不同形式的数据增强,即图像增强和文本增强。
通过增强图像将内容与风格分离
尽管最近的研究通过数据增强与对比学习对内容和风格的解耦提供了保证,但这些理论发现如何应用于视觉-语言模型领域仍不明确。本文将在以下内容中将这些理论发现转化为类似CLIP的模型。理论发现建议使用InfoNCE损失来提取内容信息,具体如下所述:
其中, 表示从训练数据集中抽取的一个包含 个样本的批次, 表示样本 通过模型 得到的特征, 是 的增强版本, 表示两个特征向量 和 之间的余弦相似度, 表示影响损失的温度参数。
本文将其扩展以优化预训练的视觉-语言模型,利用带有增强图像的对比学习(以下简称为“Im.Aug”)。如下图2a所示,本文在CLIP预训练的图