PØDA(论文解读): Prompt-driven Zero-shot Domain Adaptation_p脴da: prompt-driven zero-shot domain adaptation-CSDN博客

本文链接：https://blog.csdn.net/m0_54248968/article/details/141060166

Comment: Accepted to ICCV 2023, Project Page: https://astra-vision.github.io/PODA/

基于提示的zero-shot领域自适应

摘要

领域适应已经在计算机视觉中进行了广泛的研究，但是在训练阶段仍需要访问目标数据集，这在一些不常见的情况中可能是棘手的。本文提出了“提示驱动的zero-shot领域适应”的方法，仅使用目标领域的自然语言提示来对训练在源域上的模型进行适应。

首先，本文通过一个预训练的对比视觉语言模型（CLIP），利用仿射变换来优化源域的特征，使其接近目标域的文本嵌入，同时又保持特征的内容和语义，从而实现对目标域的零样本域适应。为了实现这一点，本文提出了基于提示的实例规范化（PIN）。其次，本文证明了基于提示的增强可用于实现语义分割的零样本域适应。

通过实验验证，该方法在多个数据集上显著优于基于CLIP的样式迁移基线方法，并且在解决特定下游任务时甚至超过了一次性无监督域适应。此外，在目标检测和图像分类任务上也观察到了类似的提升。

Introduction

在过去几年中，监督语义分割方法取得了巨大的成就，实现了更好的高分辨率预测、多尺度处理和计算效率。在受控的环境中，分割模型是使用来自可操作的设计域内的数据进行训练，其准确度可以满足行业对域内数据的高期望，但是在分布外数据进行测试时，这些模型的性能会急剧地下降。这就阻碍了它们在真实场景中应用的适应性。

为了缓解领域偏移的问题，无监督域适应已经成为一种很有前景的解决方法。UDA方法的训练需要来自源域已经标记的数据和来自目标域未被标记的数据。虽然看起来不费力，但是在某些情况中收集未被标记的数据也很复杂。例如，在现实生活中在驾驶过程中很少出现火灾或者沙尘暴，因此这种情况收集原始数据就很复杂。有人提出使用互联网的图像用于UDA，但是在工业背景下，使用公共数据的做法受到限制。最近的工作通过设计单样本UDA方法（即使用一个目标图像进行训练）来减轻目标数据收集的负担。为了进一步推进这个研究方向，本文构建了基于提示的Zero-shot领域适应这一具有挑战性的任务，其中给定目标域的文本提示，然后调整模型适应这个领域。

解释图1：图一中心表示一个已经在城市街景数据集上进行训练的分割模型。分为四个不同的场景，其中左上角中为夜间驾驶，原图上侧表示使用本文方法后的分割结果，显示为大面积的分割掩码，说明模型能够识别出道路、天空和建筑等区域。原图右侧表示是为用提示的预测结果，存在比较小的掩码表示模型没有经过提示适应。在训练过程中，在没有看到过任何火灾、沙尘暴图像的情况下，调整后的模型能够成功的分割出关键的场景对象，比原始的仅源模型表现出更少的错误。

本文的方法是利用CLIP模型的视觉语言连接实现的。在从互联网中获取的400M个图像文本对中进行训练，CLIP彻底改变了多模态表征学习，为zero-shot图像合成、zero-shot多模态融合、zero-shot语义分割、开放词汇对象检测和少样本学习带来了卓越的能力。

图2左：本文仅使用不可见的目标域的文本描述，利用预先用CLIP模型训练好的ResNet编码器来学习从源域到目标域的低级特征的风格化转换，即通过调整低级特征来使源域的特征更加接近目标域的风格。这些风格化的特征应用于具有潜在表示的源图像低级特征图，会得到增强特征fs->t，这种增强特征的嵌入与其相应目标提示的嵌入更加接近。图2中：零样本领域适应是在特征增强的源域上通过微调分割器模型来实现的，有助于减少两个域之间的分布差距。图2右：展示了本文方法在不可见的目标域上的分割效果。

由于在基于CLIP的图像生成中promt的标准术语为输入文本，所以本文方法命名为基于提示的零样本领域适应。

本文贡献

（1）本文介绍了基于提示的零样本领域适应的新任务，该任务仅使用目标域的文本描述来使在源域上训练的模型适应目标域。

（2）与其他基于CLIP的方法不同，那些方法通过直接使用图像的像素表示在CLIP的潜在空间（图像文本共享的特征空间）中进行操作，而本文的方法只对图像的特征进行修改，不依赖于图像的像素与外观。本文认为良好的特征是决定性的，这对于下游任务特别有用，例如语义分割等任务。

本文提出了一个简单有效的基于提示的实例归一化层来增强源域特征，其中优化了低级特征的仿射变换，使得CLIP潜在空间（图像文本的共享空间）中的表示与目标域提示的表示相匹配。

（3）本文方法具体强大适应能力，能够将源训练的语义分割模型成功地应用于多种不同的条件下，包括从晴天到恶劣天气、从合成数据到真实数据、以及从真实数据到合成数据。同时，该方法（PØDA）在不使用任何目标图像的情况下，表现优于当前最先进的单次无监督领域自适应方法，显示了其在领域自适应任务中的卓越性能。

（4）本文提出的基于提示的零样本领域适应可以用于目标检测和图像分类。

Prompt-driven Zero-shot Adaptation

本文框架如图2所示，基于CLIP构建，CLIP是一种视觉语言模型，在互联网上爬取的400M的图像文本对上进行预训练。

CLIP经过多个epoch联合训练图像编码器和文本编码器，学习一个表征空间来有效连接两种模态。本文工作利用这一特性，通过自然语言提示（夜间驾驶或黑暗中导航），将源域图像的特征调整到目标域的特征表示中。（图2左）本文的目标就是修改源域图像特征的样式，使其更接近目标域中的对应物，同时保留其语义内容。（图2 中）将学习的增强应用于源域图像，以零样本方式生成对应于目标域中的特征，并且可以进一步用于微调模型来处理目标域。（图2右）这允许对不可见的领域进行推理，这些领域只能在训练期间的简单提示来描述。

本文方法的挑战：（1）如何在无法访问任何图像的情况下为目标域生成信息特征（2）如何在增强特征的同时保持像素级语义（3）基于这些特征，如何使源域模型适应未见的目标域

Problem formulation.

本文的主要任务是语义分割，即将输入图像的每个像素分类为不同的语义类别。本文的研究起点为K类的分割模型M，在源域数据集上进行预训练，源域（y取值1表示该像素属于k个类别，0表示不属于k个类别）：然后使用一个预定义的自然语言提示TrgPrompt，来描述目标域从而调整模型M，使其更好的处理目标域的数据，目标域：。

分割模型M是一个DeepLabv3+模型，使用CLIP的图像编码器作为特征提取器Mfeat（这部分是冻结的，不会在训练过程中更新），还具有一个随机初始化的像素分类头Mcls，用于对每个像素进行分类：

本文以监督训练的方式训练M在源域上执行语义分割任务。为了保证编码器特征与CLIP潜在空间中的兼容性，训练过程中保持特征提取器Mfeat的参数不变，仅训练像素分类器Mcls。

解释表1：保证特征提取器Mfeat冻结，还可以防止过度拟合到源域，从而有利于泛化。

本文从CLIP中图像编码器（特征提取器）中移除掉了注意力池化层，为了保留用于像素分类器的空间信息。本文将f代表从特征提取器Mfeat提取的中间特征，f代表用特征提取器的注意力池化层计算的对应的CLIP嵌入。图3中展示了两者的区别。

Overview of the proposed method.

本文的方法就是使用源域低级特征和目标域的文本嵌入挖掘分割信息。为了笼统起见，feat-ext(·)可以从任何所需的层中提取特征，但是后来实验证明使用最低的特征效果最好。

图3中展示的augment(·)函数在目标域特定提示的指导下增强了fs中的特定样式，合成包含目标域风格信息的fs->t。本文强调特征fs和fs->t具有相同的大小h*w*c和相同的语义内容，尽管它们分别封装了不同的视觉风格。为了领域适应，源域特征fs使用挖掘到的样式进行增强，然后用于微调分类器Mcls，从而产生最终的模型。

3.1. Zero-shot Feature Augmentation

本文从AdaIN（自适应实例归一化）中得到灵感，它是通过调整图像特征的统计量（均值和标准差）来改变图像的风格。在AdaIN中，风格是由特征通道中的均值和标准差来表示，其中c表示通道的个数。使用目标样式(μ(ft), σ(ft))对源特征fs进行样式化：其中μ(·) 和 σ(·)为两个函数，返回输入特征的通道均值和标准差，乘法和加法是逐元素进行的，即针对每个特征通道独立操作。

本文围绕AdaIN设计增强策略，因为它可以使用少量的参数集有效的操控风格信息。下文中解释本文的增强策略，并且该策略可以挖掘目标样式。

由于我们无法获得目标图像，因此(μ(ft), σ(ft))是未知的。因此，本文提出了基于提示的实例归一化：其中μ和σ代表基于提示的可优化变量。

本文的目标是增强源域图像的特征Fs以致于它们能够捕获目标域的样式。描述目标域的提示是通用的，例如可以使用夜间驾驶或雨中驾驶等提示来使源域要素更加接近夜间或雨天。文本提示由CLIP中的文本编码器处理到TrgEmb嵌入中。

算法1中描述了零样本特征增强过程的第一步：挖掘目标域中样式集。对于每个源域数据特征图fs ∈ Fs，我们想挖掘其对应于目标特征图ft的样式统计信息。为此，本文将目标域样式挖掘问题表述为对源域特征的优化问题，也就是Eq2。

优化目标定义为通过在CLIP潜在空间中最小化风格特征的CLIP嵌入与目标域描述嵌入之间的余弦距离来实现的：。这种CLIP空间中的余弦距离已经在之前的基于文本的图像编辑工作中使用，旨在将风格化的特征引导到目标文本嵌入的方向。图3表示优化的步骤。在实践中，本文运行了几个相同的优化步骤，使得目标样式表示为(μt, σt)

解释图3：将源图像传入到经过CLIP预训练的图像编码器中（也就是文中所说的特征提取器），先不经过注意力池化层得到该图像的低级特征（也就是图像在图像的特征空间中的表示），经过注意力池化层得到CLIP嵌入（也就是图像文本的共享空间中的特征表示）。在每一个优化步骤中，augment都会采用前一次迭代的样式(μi−1, σi−1)，并将其利用PIN与fs融合得到，并且映射到共享空间中得到。然后计算该特征与目标域文本的特征嵌入之间的余弦距离得到损失函数，然后通过梯度下降优化(μi, σi)。

为了捕捉目标域中可能存在的各种样式，每个源图像都会对应一个目标样式变体。这使得目标样式集的大小（|S_t|）与源图像集的大小（|D_s|）相等。

本文的增强策略是一种简单且成本有效的，通过在CLIP潜在空间中出发从源图像的不同描点出发并朝向目标文本嵌入的方向引导，来覆盖目标域的分布，缓解了单样本特征增强中的多样性问题。

3.2. Fine-tuning for Adaptation

为了适应目标领域，在每次训练迭代中，本文使用从中随机挖掘到的目标样式(μt, σt)来对源特征Ss->t进行风格化。增强特征的计算公式为：，用于微调分割器M中的Mcls。由于本文只调整了特征样式，保证了语义内容没变，因此仍然可以使用类标签来训练具有标准分割损失的分类器。为此，我们需要对特征进行数据增强，然后对增强后的特征输入到特征提取模块Mfeat中的剩余层中，最后将经过处理的特征输入到Mcls进行其他任务。

在反向传播过程中只微调分类模块Mcls的权重，而保持特征提取模块的权重不变。经过微调后，模型（M'）会在以前训练阶段从未见过的图像条件和样式下进行评估，以验证其泛化能力。

Conclusion

本文利用CLIP模型中强大的zero-shot能力使得使用提示的领域适应的新任务成为可能。本文提出一种成本效益高的特征增强机制，该机制通过调整源特征中的风格特定统计量来合成目标域中的增强的特征，这一过程在提示的指导下进行的。大量实验证明本文方法的框架在语义分割方面的有效性，以及对于其他任务和各种主干的适用性。本文的研究方向和其他研究者保持一致，即利用大规模预训练模型对感知模型进行数据和标签高效的训练，用于现实世界的应用。