【研究生工作周报】（SemanticStyleGAN）

wangyunpeng33

已于 2022-10-29 23:42:53 修改

阅读量643

点赞数

文章标签：计算机视觉人工智能深度学习

于 2022-10-29 23:39:40 首次发布

本文链接：https://blog.csdn.net/wangyunpeng33/article/details/127454255

版权

SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing

CVPR2022 面向可控图像合成和编辑的组合生成先验学习

项目主页： https://semanticstylegan.github.io/
论文链接： https://arxiv.org/abs/2112.02236

文章目录

SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing
摘要
背景
相关工作
实验结果
总结

摘要

最近的研究表明，StyleGANs为图像合成和编辑的下游任务提供了有希望的先验模型。然而，由于StyleGANs的潜代码旨在控制全局样式，很难实现对合成图像的细粒度控制。本文提出SemanticStyleGAN，一个生成器被训练成单独建模局部语义部分，并以组合方式合成图像。不同局部区域的结构和纹理由相应的潜码控制。实验结果表明，该模型提供了不同空间区域之间的强解缠性。当与为StyleGANs设计的编辑方法相结合时，它可以实现更细粒度的控制来编辑合成或真实的图像。该模型还可以通过迁移学习扩展到其他领域。因此，作为具有内置解缠的通用先验模型，它可以促进基于gan的应用程序的开发，并实现更多潜在的下游任务。

背景

近年来，生成对抗网络（GANs）在图像合成方面取得了令人瞩目的进展，它可以从潜在空间中的随机码生成更具真实感图像。这些模型通过充当神经渲染器，为下游任务提供了强大的生成先验。然而，它们的合成过程通常是随机的，没有用户控制自然承诺。因此，利用生成先验来实现可控的图像合成和编辑仍然是一个具有挑战性的问题。

（神经渲染：通过深度的图像或视频生成方法，实现对一些场景属性的显式或隐式控制，例如照明、相机参数、姿势、几何、外观和语义结构）

在这种生成先验中，最著名的工作之一是Stylegan，其中每个生成的图像都以一组从粗到细的潜在代码为条件（参见图2）。然而，这些潜码的含义仍然相对模糊。一个重要的问题在于它的潜在空间是基于图像尺度来分解的，这使得StyleGAN擅长做全局风格的控制，却不利于局部编辑。

针对这个问题，本文提出了一种以可控方式合成图像的新型生成对抗网络模型——SemanticStyleGAN。与以往的GAN网络不同，它的潜在空间是基于语义分割掩码定义的语义部分进行分解的。每个语义部分都用相应的局部潜码单独调制，并通过组合局部特征图来合成图像。该模型能够使得潜在空间在不同的语义局部上解纠缠，进而实现局部的风格变换。

在这里插入图片描述

下图展示了本文模型的合成结果，最左侧一列是原始图像，最上面一行是想要从中迁移局部特征的图像，例如背景、皮肤、眼睛等。以最后一列的“Hair”为例，合成的图像只改变了头发这一个特征，而其他不相关的区域特征则保持不变。

在这里插入图片描述

实验结果

在这里插入图片描述

另一个问题是我们的模型能否应用于这些重构图像上的局部编辑。在这里，我们采用了针对StyleGAN2提出的两种流行的编辑方法:InterfaceGAN和StyleFlow。这两种方法都需要生成一组假图像并标记它们的属性来训练一个潜在的操作模型。InterfaceGAN学习线性支持向量机，而StyleFlow使用conditional continuous normalizing ﬂow来建模潜在的属性操作。
在这里插入图片描述

总结

本文提出了一种新型的GAN图像可控合成方法。通过局部生成器的设计、掩码特征聚合以及图像与分割掩码的联合建模，可以分别对不同语义区域的结构和纹理进行建模。实验表明，该方法能够在消除局部纠缠的同时合成出高质量的图像。通过将我们的模型与其他编辑方法相结合，我们可以用一个更细粒度的控件来编辑合成的图像。实验还表明，我们的模型可以适应于仅有图像的数据集，同时保持解纠缠能力。我们相信，所提出的方法为可控图像合成提供了一个新的有趣的GAN先验方向，可以为许多潜在的下游任务提供线索。

局限性
适用的数据集
尽管我们已经证明了我们的方法可以应用于人脸照片以外的其他领域，但仍存在监督学习带来的局限性。由于我们需要为每个语义类构建一个局部生成器，因此该方法不会扩展到具有太多语义类的数据集。此外，为了提高生成质量，我们将SemanticGan[40]的半监督框架改为全监督框架，这限制了我们的模型只能从头开始在仅有图像的数据集上训练。
解耦效果
由于位姿、形状和纹理之间的分离只能通过局部生成器中的层分离设计来实现，我们看到它们之间的界限有时仍然模糊不清。但本文主要关注不同语义部分之间的空间解耦，我们相信在未来可以引入额外的正则化损失或架构调整来更好地解耦这些信息。