StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

最新推荐文章于 2024-08-22 09:17:16 发布

海柱12

最新推荐文章于 2024-08-22 09:17:16 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习计算机视觉文章标签：计算机视觉人工智能深度学习生成对抗网络算法

本文链接：https://blog.csdn.net/qq_39454370/article/details/128052260

版权

机器学习计算机视觉专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators（StyleGAN-NADA：图像生成器的 CLIP 引导域自适应）

机构：特拉维夫大学

GitHub地址：stylegan-nada.github.io/http://stylegan-nada.github.io/2.摘要：

摘要：是否可以训练生成模型从特定领域生成图像，仅由文本提示引导，而看不到任何图像？换句话说：可以“盲目地”训练图像生成器吗？利用大规模对比语言图像预训练 (CLIP) 模型的语义能力，我们提出了一种文本驱动方法，允许将生成模型转移到新领域，而无需收集甚至单个图像。我们表明，通过自然语言提示和几分钟的训练，我们的方法可以使生成器适应以不同样式和形状为特征的多个领域。值得注意的是，其中许多修改将很难或完全不可能通过现有方法实现。

3.介绍：

图 1. 由我们的方法引起的文本驱动的域外生成器适应示例。推动变化的文本说明出现在每组生成的图像旁边

4.method

我们的目标是将预训练的生成器从给定的源域转移到新的目标域，仅通过文本提示进行描述，没有图像。作为监督来源，我们仅使用预训练的 CLIP 模型。我们通过两个关键问题来解决这个任务：

(1) 我们如何才能最好地提取封装在 CLIP 中的语义信息？

（2）我们应该如何规范优化过程以避免对抗性解决方案和模式崩溃？在下一节中，我们概述了旨在回答这两个问题的训练方案和损失。

4.1. CLIP-based guidance

Global loss.

其中G(w) 是由馈送到生成器G的潜码w生成的图像，ttarget是目标类的文本描述，DCLIP是剪辑空间余弦距离。我们将这种损失命名为 “全球”，因为它不依赖于初始图像或域。

Directional CLIP loss.

以我的理解，他求一个高维空间的 $\Delta T$ 在 $\Delta I$ 上的投影，如果投影为1那么文本编辑方向和风格图像引导的编辑方向相同那么只需要文本就可以对图像进行编辑。

4.2. Layer-Freezing

对于主要基于纹理的域转换，例如将照片转换为草图，上述训练方案会在模式崩溃或过拟合发生之前快速收敛。然而，更广泛的形状修改需要更长时间的训练，这反过来又会破坏网络的稳定性并导致糟糕的结果。

先前关于少镜头域适应的工作观察到，通过将训练限制在网络权重的子集，可以显着提高合成结果的质量。直觉是源生成器的某些层对于生成目标域的各个方面很有用，因此我们希望保留它们。此外，优化较少的参数可以降低模型的复杂性和过度拟合的风险。按照这些方法，我们通过限制每次训练迭代中可以修改的权重数量来规范训练过程。

我们希望将训练限制在那些与给定变化最相关的模型权重上。为了识别这些权重，我们转向潜在空间编辑技术，特别是 StyleCLIP。

通过考虑在 W+ 空间的编辑方向 —— 可以为 StyleGAN 的每一层提供不同代码 wi ∈ W 的潜在空间 —— 我们可以确定哪些层与给定的变化联系最紧密。基于这种直觉，我们提出了一种训练方案，在每次迭代中，我们 (i) 选择 k 个最相关的层，并且 (ii) 执行单个训练步骤，我们只优化这些层，同时冻结所有其他层。

为了选择 k 层，我们随机采样 Nw 个潜在代码 ∈ W，并通过为每一层复制相同的代码将它们转换为 W+。然后，我们使用全局损失（等式（1））执行 StyleCLIP 潜代码优化方法的 Ni 次迭代。我们选择潜在代码变化最显着的 k 层。两步过程如图 4 所示。在所有情况下，我们还冻结了 StyleGAN 的映射网络、仿射代码转换和所有 toRGB 层。

图 4. 自适应层冻结机制有两个阶段。在第一阶段（左），保持所有网络权重固定，优化 W+（青绿色）中的一组潜在代码。这种优化是使用全局 CLIP 损失（等式（1））进行的。我们选择相应的 w 条目变化最显着的层（较深的颜色，左侧）。在第二阶段（右），我们解冻所选层的权重。然后，我们使用定向 CLIP 损失（等式（2））优化这些层。

5. Experiments

在图5和图6中，我们示出了一系列由从面部，教堂，狗和汽车转换到各种目标域的生成器合成的随机采样图像。附录G中显示了描绘各种目标域的其他大型画廊。

Comparison to other methods

Text-guided editing.

Few-shot generators.

6.Conclusions

我们介绍了 StyleGAN-NADA，这是一种用于图像生成器的非对抗域适应的 CLIP 引导的 zeroshot 方法。通过使用 CLIP 来指导生成器的训练，而不是探索其潜在空间，我们能够影响样式和形状的巨大变化，远远超出生成器的原始域。

在没有数据的情况下训练生成器的能力带来了令人兴奋的新可能性-从以几乎仅受用户创造力约束的方式编辑图像，到为诸如图像到图像转换之类的下游应用程序合成配对的跨域数据。

然而，我们的方法并非没有限制。通过依赖 CLIP，我们仅限于 CLIP 观察到的概念。文本指导也固有地受到自然语言提示的歧义性的限制。例如，当有人描述“拉斐尔画作”时，他们指的是文艺复兴时期画家的艺术风格、与他相似的肖像还是以该名字命名的动画乌龟？

我们希望我们的工作能够激励其他人继续探索文本引导生成的世界，尤其是 CLIP 引导视觉转换的惊人能力。或许，在不久的将来，我们的日常工作将不再受数据要求的限制——而只受我们创造力的限制。

海柱12

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

是否可以训练生成模型从特定领域生成图像，仅由文本提示引导，而看不到任何图像？换句话说：可以“盲目地”训练图像生成器吗？利用大规模对比语言图像预训练 (CLIP) 模型的语义能力，我们提出了一种文本驱动方法，允许将生成模型转移到新领域，而无需收集甚至单个图像。我们表明，通过自然语言提示和几分钟的训练，我们的方法可以使生成器适应以不同样式和形状为特征的多个领域。值得注意的是，其中许多修改将很难或完全不可能通过现有方法实现
复制链接

扫一扫