StyleGAN

最新推荐文章于 2023-03-07 16:36:01 发布

Nicholas Sc

最新推荐文章于 2023-03-07 16:36:01 发布

阅读量262

点赞数

分类专栏： GAN 文章标签：人工智能

本文链接：https://blog.csdn.net/dn_us/article/details/128507637

版权

GAN 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

潜在因子z是从正态分布或均匀分布中采样的，并且包含决定所生成内容的类型和风格的因子。

考虑到这一点，我们提出了两个重要的问题：

为什么z是均匀分布或正态分布的？
由于z包含元信息，它是否应该在每个卷积层的数据生成中发挥更重要的作用？（而不是仅作为第一层的输入。）

潜在因子 z

一般来说，机器学习 (ML) 喜欢它的潜在因素独立于其他因素，这使得模型训练更容易。例如，身高和体重是高度纠缠的（更高的人体重更重）。因此，根据身高和体重计算出的体重指数 (BMI) 更常用于肥胖。所需的训练模型将不那么复杂。未纠缠的因素也使模型更容易正确解释。

在 GAN 中，z的分布应该类似于真实图像的潜在因子分布。如果我们改为使用正态分布或均匀分布对z进行采样，则优化模型可能需要z嵌入类型和样式之外的信息。例如，让我们为军人生成肖像，并用两个潜在因素可视化训练数据集的数据分布：男性气质和头发长度。下方缺失的左上角表示男兵不允许留长发。

如果我们对这个空间进行均匀采样，生成器将尝试为长头发的男性士兵再现肖像。这应该会失败，因为我们没有任何训练数据来学习它。从另一个角度来看，当使用正态分布或均匀分布进行采样时，想象一下模型将学习哪些潜在因素。事实上，它可能会比它应该的更加纠缠和复杂。正如 StyleGAN 论文所说，“这会导致某种程度的不可避免的纠缠”。

在逻辑回归中，我们应用基础的变化来创建分离二元类的线性边界。在 StyleGAN 中，它应用称为映射网络的深度网络将潜在z转换为中间潜在空间w。

从概念上讲，StyleGAN 将可以以均匀或正态分布（下中）采样的空间扭曲到轻松生成图像所需的潜在特征空间（左）中。该映射网络的目标是创建易于由生成器渲染的无缠结特征，并避免训练数据集中不会发生的特征组合。该映射网络旨在创建彼此独立的特征，以便生成器更容易地执行渲染，同时避免训练数据集中不曾出现的特征组合。

styleGAN论文最初使用的是progress GAN网络，然后改进模型设计进行了多次实验。

改进版本B

使用双线性采样（bilinear sampling）来代替判别器和生成器中的最近邻上采样/下采样。

改进版本C是添加了映射网络和样式。映射网络是通过mapping network，用来解耦潜在因子，其具体说明请看上文。对于后一部分，AdaIN将取代PixelNorm将样式用于空间数据。

如果将潜在因子只作用在第一层，那么随着网络的深度，它的作用会减弱。因在基于样式的生成器中，用单独学习的仿射变化A来变换每一层中的W。添加了映射网络和样式。对于后一部分，AdaIN（自适应实例规范化）将取代 PixelNorm 将样式应用于空间数据。

AdaIN(自适应实例归一化)定义为：

归一化特征会影响应用于空间位置的样式量。

移除了传统的输入

在原版GAN中，第一层的输入是潜在因子z。实验结果表明，向StyleGAN第一层添加可变输入毫无益处，因此将可变输入替换为常量输入，在推理过程中不会改变其学习参数。这个常量输入并没有什么软用，主要的风格还得看潜在因子z。

最后一个改进样式混合和混合正则化

之前使用一个潜在因子将其作为派生样式的单一来源，通过混合正则化，我们切换到不同的潜在因子z2以在达到特定空间分辨率后导出样式。

如下图所示，我们使用生成图像源B来导出粗空间分辨率(4X4到8X8)样式，并使用图像源A的潜在因子来获得更精细的空间分辨率。因此，所获得的图像的姿势、发型、脸型和眼睛等风格来自于源B，而对于颜色、肤色、头发等更精细的面部特征来源于A。

W中的截断技巧

Truncation Trick不是styleGAN提出来的，他很早就用在了GAN的图像生成了。从数据分布来说，低概率密度的数据在网络中的表达能力很弱，直观理解就是，低概率密度的数据出现的次数少，能影响网络梯度的机会也少，但并不代表低概率密度的数据不重要。可以提高数据分布的整体密度，把分布稀疏的数据点都聚拢到一起，类似于PCA。在生成图像时，我们尝试避开这些区域，以牺牲变化为代价来提高图像质量。这可以通过阶段z或w来完成。在StyleGAN中，它是在w中使用：

但是截断只在低分辨率层进行，这确保了高分辨率细节不受影响。用在低分辨率层，也就意味着只对脸型、形状等影响。

感知路径长度

StyleGAN论文还介绍了一种衡量GAN性能的新指标，称为感知路径长度。在GAN中，我们逐渐改变潜在因子z中的一个特定维度，以可视化其语义。

潜在空间中的这种插值可以产生令人惊讶的非线性视觉变化。例如，两端都没有的特征可能会出现在中间。这表明潜在空间以及变异因素是高度纠缠的。因此，我们可以通过测量执行差值时的累积变化来量化这些变化。如果我们将潜在空间插值路径细分为线性段，我们可以将每个段上的所有感知差异加在一起。值越低，GAN 图像应该越好。