1.Motivation
当前的UDA方法通过对齐源和目标特征空间来学习域不变特征。这种对齐是由诸如统计差异最小化或对抗性训练等约束施加的。然而,这些约束可能导致语义特征结构的扭曲和类可辨别性的丧失。
在本文中,引入了一种新的UDA提示学习范式,即通过提示学习进行领域适应(DAPL)。使用了预训练的视觉语言模型,并且只优化了很少的参数。主要思想是将领域信息嵌入到提示中,这是一种由自然语言生成的表示形式,然后用于执行分类。该域信息仅由来自同一域的图像共享,从而根据每个域动态调整分类器。
2.Introduce
通过对齐域来减少差异可能会导致语义信息的丢失。当数据分布的流形结构很复杂时,这种损失来自于语义和领域信息的纠缠性。为了解决这个问题,最近的一些UDA方法主张保留语义信息以保持类的可判别性。然而,这些方法在领域对齐和保留语义特征之间存在微妙的权衡,因为两个目标可能是对立的。学习解纠缠的语义和领域表示可以是一种选择,因为领域对齐可以被丢弃。
为了学习解纠缠语义和领域表示,将提示学习方法引入UDA,通过学习连续标签空间中的表示。图2说明了提示设计。提示符由三部分组成:与领域无关的上下文、特定于领域的上下文和类标签(token)。每个图像通过提示符的类标签对应一个ground truth类。例如,显示“狗的艺术作品”的图像可以对应提示“绘画狗的图像”。与领域无关的上下文表示一般任务信息,并在所有图像之间共享。特定于域的上下文表示域信息,并在每个域中共享。类标签区分不同的类别。
这种提示学习方法使我们能够学习领域和类别的解纠缠表示,并避免语义信息的丢失。应用对比目标进行训练。图像和文本只有在领域和类别匹配的情况下才构成一对正例,其他情况都是反例。通过对比XS和y的表示,“sketch”和“dogs”的图像和文本表示分别在特征空间中对齐。此外,通过对比XT和y,“sketch”的文本表示被推离“photo”域。因此,领域和类别的表示分别是对齐的。采用对比语言图像预训练(contrast Language Image Pretraining, CLIP)作为主干,促进提示学习和对比学习。
3.Method
3.1. Preliminaries
采用CLIP作为主干。模型由图像编码器f(·)和文本编码器g(·)组成。图像编码器可以是ResNet或Vision Transformer (ViT),文本编码器是Transformer。图像和文本输入可以通过编码器直接从高维空间转换到低维特征空间。
CLIP以对比的方式使用图像-文本对进行训练。每个输入文本以“一张[CLASS]的照片”的格式描述一个类别([CLASS]是类别标记)。正对是一个图像xi及其对应描述xi的类别的文本ti。负对是小批量中图像xi以及具有不相关描述tj, j≠i。训练目标是最大化正对的余弦相似度,最小化负对的余弦相似度。对比学习目标将图像和文本表示在相同的特征空间中对齐。
在特征对齐后,该模型能够进行zero-sho