StyleGAN

最新推荐文章于 2024-04-23 09:10:36 发布

量化交易曾小健(金融号)

最新推荐文章于 2024-04-23 09:10:36 发布

阅读量368

点赞数

文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_39970492/article/details/130776826

版权

2 原理简介

StyleGAN[1]是一个强大的可以控制生成图片属性的框架，它采用了全新的生成模型，分层的属性控制，Progressive GAN的渐进式分辨率提升策略，能够生成1024×1024分辨率的人脸图像，并且可以进行属性的精确控制与编辑, 下图展示了StyleGAN论文中生成的人脸图片。

接下来我们对StyleGAN的原理进行解读。

2. 映射网络f

映射网络f总共有8层全连接层，输入是512维的噪声向量Z，经过8个全连接层，得到512维的潜在空间向量W，这样编码的好处是为了摆脱输入向量受输入数据集分布的影响，下面参考论文中的简单案例进行说明，如下图。

训练数据集通常是有偏的，比如在人脸的属性中，性别包括男女，头发包括长短，其中{男，长发}属性一起出现的概率较低，而{男，短发},{女，长发},{女，短发}一起出现的概率较高，反映到空间中就是一个不均匀的分布，如图(a)。

如果我们仅仅使用随机采样的噪声向量Z来映射，因为噪声Z的分布在全空间，为了拟合训练数据集，必定存在不均匀的映射区域，如图(b)，这增加了从Z到生成图片的模型学习难度，因为属性之间的耦合关系非常复杂。

假如通过映射网络f首先对Z进行映射得到W，不仅可以保证与训练集一致的分布，还获得更加均匀的属性分布，潜在向量空间W与生成图片的属性之间有更好的线性关系，这有利于对生成图片的属性控制，因此W更加合适作为生成器的输入。

2.2 生成网络g

接下来我们再看生成网络g，它通过分层的控制来实现不同粒度人脸属性的编辑。

AdaIN层是一个在生成对抗网络和风格化领域中应用非常广泛的归一化层，在风格编码任务中，它可以替换批归一化层(BN)获得更好的结果，其定义如下；

AdaIN 的具体实现过程是：将512维的向量W通过一个可学习的仿射变换，生成缩放因子与偏差因子，这两个因子会与实例标准化(即Instance Normalization，简称IN)之后的输出做加权求和，原理示意如下图。

后来StyleGAN的研究者发现，对不同的AdaIN层使用不同的W向量是有益的，因此W的维度被拓展成18×512，称之为W'，其中18对应AdaIN层的数量。

由于实例标准化对每个特征图单独计算，尺度和偏移的维度也与特征图通道数有关。通过缩放因子与偏差因子，我们可以实现图片的整体样式控制，所以它们可以被称之为风格向量。

生成网络synthesis network g是一个分辨率逐级提升的结构，总共有17个卷积层，除了第1层以外，每两层上采样一个尺度，分辨率从4×4提升到1024×1024，训练方式与Progressive GAN相同。每一级分辨率都有两个AdaIN层，我们可以将其称为1个风格化模块，一共9个风格化模块。

以StyleGAN生成的人脸图像为例，作者在论文的实验中发现，按照尺度可以将人脸特征分为3个层级，全局特征，中级特征与细节特征，如下图。