学习笔记：StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators 图像生成器的CLIP引导领域适应

最新推荐文章于 2025-04-08 10:59:15 发布

明天吃啥呀

最新推荐文章于 2025-04-08 10:59:15 发布

阅读量2.8k

点赞数 4

分类专栏：多模态领域适应风格迁移文章标签：深度学习计算机视觉迁移学习

本文链接：https://blog.csdn.net/Qi__Xi/article/details/127228856

版权

风格迁移同时被 3 个专栏收录

9 篇文章

订阅专栏

多模态

4 篇文章

订阅专栏

领域适应

2 篇文章

订阅专栏

StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators 图像生成器的CLIP引导领域适应

摘要
1. 背景
2. 相关工作
3. 方法
4. 实验
5. 总结

论文链接：https://arxiv.org/abs/2108.00946
代码链接：https://github.com/rinongal/StyleGAN-nada

摘要

生成模型能否训练成只在文本提示的引导下生成特定领域的图像，而不需要看到任何图像？换句话说：可以盲目训练一个图像生成器吗？利用大规模对比语言-图像-预训练（CLIP）模型的语义能力，本文提出了一种文本驱动的方法，允许将生成模型迁移到新的领域，而无需从这些域中收集甚至一张图像。通过自然语言提示和几分钟的训练，本文的方法可以在具有不同风格和形状特征的众多领域中调整生成器。值得注意的是，用现有的方法很难或完全不可能实现这些修改。我们在广泛的领域进行了一系列的实验和比较，这些实验证明了该方法的有效性，并表明本文的迁移模型保持了潜在空间属性，这使得生成模型对下游任务具有吸引力。

1. 背景

生成对抗网络（GAN）通过语义丰富的潜在空间捕获和建模图像分布的能力已经彻底改变了无数领域。但这些模型的范围通常仅限于可以为其收集大量图像的域，这一要求严重限制了它们的适用性。因为在许多情况下，可能没有足够的数据来训练网络，甚至根本没有任何数据（例如特定艺术家的画作，虚构的场景）。
研究表明，视觉–语言模型封装了可以绕过收集数据的通用信息，这些模型可以与生成模型配对，为图像生成和操作提供简单直观的文本驱动界面。然而，这些工作建立在具有固定域的预训练生成模型之上，将用户限制在域内生成和操作上。

2. 相关工作

2.1 StyleGAN

近年来，StyleGAN及其优化模型已经成为最先进的无条件图像生成器，因为它们能够合成前所未有的高分辨率图像。

StyleGAN生成器由两个主要部分组成。首先，映射网络将从高斯分布采样的潜码 $z$ 转换为学习潜空间 $W$ 中的向量 $w$ 。然后将这些潜在向量输入第二个组成部分——合成网络，以控制不同网络层的特征统计信息。通过遍历这个中间潜在空间 $W$ ，或者在不同的网络层混合不同的 $w$ 编码，先前的工作证明了对生成图像中语义属性的细粒度控制。然而，这种潜在空间遍历通常仅限于域内修改，也就是说，它被限制为具有与初始训练集匹配的属性的图像集合。相比之下，这里本文的目标是在域之间转移生成器，超越潜在空间编辑，转向语义感知的微调。

2.2 CLIP

Contrastive Language-Image Pretraining（CLIP）是2021年OpenAI推出的一个可以学习联合视觉–语言表示的模型。CLIP在4亿个文本–图像对上进行了训练，使用对比学习目标。在训练时(图左)，CLIP联合训练图像编码器和文本编码器来预测一批文本和图像的正确配对。在测试时(图右)，学习过的文本编码器通过嵌入目标数据集类的名称或描述来合成零样本线性分类器。目的是将文本和图像各自的输入映射到一个联合的多模态嵌入空间中。

CLIP

2.3 StyleCLIP

StyleCLIP是先前的工作，它是将StyleGAN的生成能力与CLIP的语义知识相结合，只使用所需更改的文本描述，在预先训练的GAN网络的潜在空间中发现编辑方向。下面是利用CLIP语义能力的三种方法：

（1）文本引导的潜在优化

使用标准的反向传播方法来修改给定的潜码，以最小化生成的图像和某些给定目标文本之间的CLIP空间距离：ℒ_{g𝑙𝑜𝑏𝑎𝑙} = 𝐷_{𝐶𝐿𝐼𝑃} (𝐺(𝑤), 𝑡_{𝑡𝑎𝑟𝑔𝑒𝑡})，将此目标文本距离损失定义为全局CLIP损失；

（2）潜在映射器

训练网络将输入的潜码转换为修改生成图像中文本描述属性的编码。此映射器使用相同的全局CLIP损失目标进行训练，它应该生成与图像相对应的编码，以最小化到目标文本的CLIP空间距离。对于一些比较大的形状修改，训练一个潜在映射器可以通过识别潜在空间区域来帮助改善结果，这些区域为目标类产生了更好的候选者；

（3）全局方向

通过确定哪些潜码修改诱导图像空间变化来发现GAN网络的潜在空间中有意义的变化方向，该变化与CLIP空间中两个文本描述符（也就是源和目标）之间的方向共线性。

3. 方法

本文提出了StyleGAN-NADA，一种基于视觉–语言预训练模型（CLIP）引导的图像生成器非对抗领域适应的零样本方法。通过使用CLIP来指导生成器的训练，将生成模型的领域迁移到一个新的领域，只使用文本提示，生成的图像能够产生风格和形状的巨大变化，远远超越原始生成器的领域。

如图所示，只需要输入文本，就可以生成指定艺术风格的绘画图像。

3.1 网络架构

图中是训练阶段的一个大致的网络架构。核心是两个相互交织的生成器—— $G$ _frozen 和 $G$ _train（它们都使用StyleGAN2架构）。两个生成器共享一个映射网络，所以具有相同的潜在空间，这就使得相同的潜码最初将在两者中生成的图像相同。然后使用在单个源域（例如人脸、狗、教堂、汽车）上预先训练的模型的权重来初始化这两个生成器。我们的目标是更改其中一个配对生成器的域，同时保持另一个生成器固定作为参考。

$G$ _frozen 的权重在整个过程中保持固定，目的是在无限范围的生成实例中提供源域的上下文； $G$ _train 的权重通过使用一组基于CLIP的损失优化和层冻结方法进行修改。这个过程是根据用户提供的文本方向来迁移 $G$ _train 的域，同时保持共享的潜在空间。

3.2 基于CLIP的损失

本文依靠预先训练的CLIP模型作为目标域的唯一监督源。为了有效地从CLIP中提取知识，本文利用了三种损失算法：

3.2.1 全局目标损失（Global CLIP loss）

公式1
$G$ ( $w$ )是提供潜码时生成器生成的图像， $t$ _target 是目标类的文本描述， $D$ 是CLIP空间的余弦距离。这个损失的目的是最小化生成的图像和某些给定目标文本之间的CLIP 空间余弦距离，用来负责确定在每次迭代中训练哪个层子集。

3.2.2 局部方向损失（Directional CLIP loss）

将两个生成器生成的图像嵌入到CLIP空间中，并要求连接它们的矢量 $Δ I$ ，与源文本和目标文本规定的方向 $Δ T$ 共线性。

我们通过最大化其标准化的内积来实现这一目标：

公式2
$t$ _target 和 $t$ _source 分别是源文本和目标文本， $E$ _I 和 $E$ _T 分别是CLIP的图像和文本编码器， $G$ _frozen 和 $G$ _train 分别是冻结源生成器和改进的可训练生成器。这个损失的目的是保护多样性和图片质量。

3.2.3 嵌入范数损失（Embedding-norm loss）

在某些情况下，使用StyleCLIP中的潜在映射器可以更好地识别与目标域匹配的潜在空间区域。但映射器偶尔会在图像上引起不良的语义伪影，例如张开动物的嘴和放大舌头。我们观察到，这些伪影与生成的图像的CLIP空间嵌入规范的增加相关。因此，我们通过在映射器训练期间引入额外的损失来约束这些规范，从而阻止映射器引入此类伪影：

公式3
M是潜在映射器。

3.3 自适应层冻结

理想情况下，我们希望将训练限制在那些与给定变化最相关的模型权重上，在StyleGAN的潜在空间中，不同网络层的潜码会影响不同的语义属性，我们可以查找哪些层与给定的变化最相关，避免不相关的更改。因此，本文提出了一个自适应层冻结方案，在每次迭代中，（1）选择 $k$ 个最相关的层；（2）执行生成器的单一训练迭代，只优化这些层，同时冻结所有其他层。

第一阶段（层选择阶段），为了选择这 $k$ 层，我们随机抽样 $N$ _w 个潜码∈ $W$ ，并通过为每一层复制相同的潜码将其转换为 $W$ +（绿松石色），然后执行StyleCLIP潜在优化步骤的 $N$ _i 迭代，保持所有网络权重固定。这一阶段使用全局目标损失进行优化，这个损失是由目标域的文本描述驱动。然后我们选择相应 $w$ 条目变化最明显的 $k$ 层（用较深的颜色表示，这里是选择红色和橘色）；
第二阶段（优化阶段），使用局部方向损失来优化选中的这些层，同时冻结其他层。采用这个训练方法优化的参数较少，可以降低模型复杂性和过拟合的风险。

3.4 潜在映射器

作者注意到对于某些形状变化，生成器不会进行完整的转换。例如，在狗变成猫的情况下，微调过程会产生一个新的生成器，它可以输出猫、狗和介于两者之间的各种图像。然而，这个转换的生成器现在在其域内同时包括猫和狗。因此，我们使用StyleCLIP的潜在映射器，并添加了嵌入范数损失，以便将所有潜码映射到潜在空间的类似猫的区域。