A Style-Based Generator Architecture for Generative Adversarial Networks

Adagrad

于 2024-10-30 11:13:15 发布

阅读量975

点赞数 16

分类专栏： AI 文章标签：人工智能

本文链接：https://blog.csdn.net/u013049912/article/details/143319841

版权

AI 专栏收录该内容

20 篇文章

订阅专栏

Abstract

我们借鉴风格迁移文献，提出了一种用于生成对抗网络的替代生成器架构。新的架构可以自动学习、无监督地分离高级属性（例如，在人脸上训练时的姿势和身份）和生成图像的随机变化（例如，雀斑、头发），并且它可以实现直观的、规模化的合成的具体控制。新的生成器改进了传统分布质量指标的最新技术，带来明显更好的插值属性，并且更好地消除了变化的潜在因素。为了量化插值质量和解缠结，我们提出了两种适用于任何生成器架构的新的自动化方法。最后，我们引入了一个新的、高度多样化且高质量的人脸数据集。

1. Introduction

生成方法（尤其是生成对抗网络（GAN）[22]）生成的图像的分辨率和质量最近得到了快速改善[30,45,5]。然而，生成器仍然像黑匣子一样运行，尽管最近做出了努力[3]，但仍然缺乏对图像合成过程各个方面（例如随机特征的起源）的理解。对潜在空间的属性也知之甚少，并且通常演示的潜在空间插值[13,52,37]没有提供定量方法来比较不同的生成器。

受风格迁移文献[27]的推动，我们重新设计了生成器架构，揭示了控制图像合成过程的新方法。我们的生成器从学习的常量输入开始，根据潜在代码调整每个卷积层图像的“风格”，从而直接控制不同尺度下图像特征的强度。与直接注入网络的噪声相结合，这种架构变化导致生成图像中高级属性（例如姿势、身份）与随机变化（例如雀斑、头发）的自动、无监督分离，并实现直观的缩放具体的混合和插值操作。我们不会以任何方式修改判别器或损失函数，因此我们的工作与正在进行的关于 GAN 损失函数、正则化和超参数的讨论正交[24,45,5,40,44,36]。

我们的生成器将输入潜在代码嵌入到中间潜在空间中，这对网络中变异因素的表示方式产生了深远的影响。输入潜在空间必须遵循训练数据的概率密度，我们认为这会导致某种程度的不可避免的纠缠。我们的中间潜在空间不受这种限制，因此可以被解开。由于之前估计潜在空间解缠程度的方法并不直接适用于我们的情况，因此我们提出了两种新的自动化指标——感知路径长度和线性可分离性——来量化生成器的这些方面。使用这些指标，我们表明，与传统的生成器架构相比，我们的生成器允许对不同的变化因素进行更线性、更少纠缠的表示。

最后，我们提出了一个新的人脸数据集（Flickr-Faces-HQ、FFHQ），与现有的高分辨率数据集（附录 A）相比，它提供了更高的质量并涵盖了更广泛的变化。我们已公开该数据集以及我们的源代码和预训练网络。可以在同一链接下找到随附的视频。

2. Style-based generator

虽然传统的生成器 [30] 仅通过输入层提供潜在代码，但我们首先将输入映射到中间潜在空间 W，然后通过每个卷积层的自适应实例归一化（AdaIN）来控制生成器。在每次卷积之后、评估非线性之前添加高斯噪声。这里“A”代表学习的仿射变换，“B”将学习的每通道缩放因子应用于噪声输入。映射网络 f 由 8 层组成，合成网络 g 由 18 层组成——每个分辨率 (4^2 − 1024^2) 两层。最后一层的输出使用单独的 1 × 1 卷积转换为 RGB，类似于 Karras 等人[30]。我们的生成器总共有 2620 万个可训练参数，而传统生成器只有 2310 万个。

传统上，潜在代码通过输入层（即前馈网络的第一层）提供给生成器（图 1a）。我们通过完全省略输入层并从学习常数开始来偏离此设计（图 1b，右）。给定输入潜在空间 Z 中的潜在代码 z，非线性映射网络 f : Z →W 首先产生 w ∈ W（图 1b，左）。为了简单起见，我们将两个空间的维数设置为 512，并且使用 8 层 MLP 实现映射 f，我们将在 4.1 节中分析这一决策。然后学习仿射变换将 w 专门化为 y = (ys, yb) 样式，控制合成网络 g 的每个卷积层之后的自适应实例归一化 (AdaIN) [27, 17, 21, 16] 操作。 AdaIN 操作定义为

其中每个特征图 xi 分别进行标准化，然后使用样式 y 中相应的标量分量进行缩放和偏置。因此 y 的维度是该层上特征图数量的两倍。

比较我们的风格迁移方法，我们从向量 w 而不是示例图像计算空间不变的风格 y。我们选择对 y 重复使用“风格”这个词，因为类似的网络架构已经用于前馈风格传输 [27]、无监督图像到图像翻译 [28] 和域混合 [23]。与更通用的特征转换 [38, 57] 相比，AdaIN 由于其效率和紧凑的表示而特别适合我们的目的。

最后，我们为生成器提供了一种通过引入显式噪声输入来生成随机细节的直接方法。这些是由不相关的高斯噪声组成的单通道图像，我们将专用的噪声图像提供给合成网络的每一层。使用学习到的每个特征缩放因子将噪声图像广播到所有特征图，然后添加到相应卷积的输出中，如图 1b 所示。添加噪声输入的影响将在 3.2 和 3.3 节中讨论。

2.1. Quality of generated images

在研究我们的生成器的特性之前，我们通过实验证明了重新设计不会影响图像质量，事实上，它还大大提高了图像质量。表 1 给出了 CELEBA-HQ [30] 和我们新的 FFHQ 数据集（附录 A）中各种生成器架构的 Fr´echet 起始距离（FID）[25]。其他数据集的结果在附录 E 中给出。我们的基线配置 (A) 是 Karras 等人 [30]的渐进式 GAN 设置，除非另有说明，我们从中继承网络和所有超参数。我们首先通过使用双线性上/下采样操作[64]、更长的训练和调整的超参数切换到改进的基线（B）。附录 C 中包含训练设置和超参数的详细描述。然后，我们通过添加映射网络和 AdaIN 操作 (C) 进一步改进这个新基线，并令人惊讶地发现，网络不再受益于将潜在代码输入第一个卷积层。因此，我们通过删除传统的输入层并从学习的 4 × 4 × 512 常量张量 (D) 开始图像合成来简化架构。我们发现，即使合成网络仅通过控制 AdaIN 操作的样式接收输入，它也能够产生有意义的结果，这一点非常引人注目。

最后，我们引入了进一步改善结果的噪声输入 (E)，以及新颖的混合正则化 (F)，它可以解相关相邻样式并能够对生成的图像进行更细粒度的控制（第 3.1 节）。

我们使用两种不同的损失函数来评估我们的方法：对于 CELEBA-HQ，我们依靠 WGAN-GP [24]，而 FFHQ 使用 WGAN-GP 进行配置 A，使用 R1 正则化 [44,51,14] 的非饱和损失 [22] 配置 B–F。我们发现这些选择可以提供最佳结果。我们的贡献不会修改损失函数。

我们观察到，基于样式的生成器 (E) 比传统生成器 (B) 显着提高了 FID，几乎提高了 20%，这证实了并行工作中进行的大规模 ImageNet 测量 [6, 5]。图 2 显示了使用我们的生成器从 FFHQ 数据集生成的一组未经整理的新颖图像。经FID证实，平均品质较高，甚至连眼镜、帽子等配饰也能成功合成。对于该图，我们使用所谓的截断技巧[42,5,34]避免从 W 的极端区域进行采样 - 附录 B 详细说明了如何在 W 而不是 Z 中执行该技巧。请注意，我们的生成器允许应用仅选择性地截断至低分辨率，以便高分辨率细节不受影响。

本文中的所有 FID 都是在没有截断技巧的情况下计算的，我们仅将其用于图 2 和视频中的说明目的。所有图像均以 10242 分辨率生成。

2.2. Prior art

GAN 架构的大部分工作都集中在通过使用多个判别器 [18, 47, 11]、多分辨率判别器 [60, 55] 或自注意力 [63] 等来改进判别器。生成器方面的工作主要集中在输入潜在空间中的精确分布[5]或通过高斯混合模型[4]、聚类[48]或鼓励凸性[52]塑造输入潜在空间。

最近的条件生成器通过单独的嵌入网络将类标识符馈送到生成器中的大量层[46]，而潜在的仍然通过输入层提供。一些作者考虑将部分潜在代码馈送到多个生成器层 [9, 5]。在并行工作中，陈等人[6] 使用 AdaIN“自调制”生成器，与我们的工作类似，但不考虑中间潜在空间或噪声输入。

3. Properties of the style-based generator

我们的生成器架构使得可以通过对样式进行特定比例的修改来控制图像合成。我们可以将映射网络和仿射变换视为从学习的分布中为每种风格抽取样本的方法，而将合成网络视为基于风格集合生成新颖图像的方法。每种样式的效果都在网络中局部化，即修改样式的特定子集预计只会影响图像的某些方面。

为了了解这种定位的原因，让我们考虑一下 AdaIN 操作（方程 1）如何首先将每个通道归一化为零均值和单位方差，然后才根据风格应用尺度和偏差。新的每通道统计数据（由样式决定）修改了后续卷积操作的特征的相对重要性，但由于归一化，它们不依赖于原始统计数据。因此，每种样式在被下一个 AdaIN 操作覆盖之前仅控制一个卷积。

3.1. Style mixing

为了进一步鼓励样式局部化，我们采用混合正则化，其中给定百分比的图像是在训练期间使用两个随机潜在代码而不是一个潜在代码生成的。当生成这样的图像时，我们只需在合成网络中随机选择的点从一个潜在代码切换到另一个潜在代码（我们称之为风格混合的操作）。具体来说，我们通过映射网络运行两个潜在代码 z1、z2，并让相应的 w1、w2 控制样式，以便 w1 在交叉点之前应用，w2 在交叉点之后应用。这种正则化技术可以防止网络假设相邻样式是相关的。

表 2 显示了在训练期间启用混合正则化如何显着改善定位，这通过在测试时混合多个潜在变量的场景中改进的 FID 来表明。图 3 展示了通过混合不同比例的两个潜在代码合成的图像示例。我们可以看到，每个样式子集控制着图像的有意义的高级属性。

3.2. Stochastic variation

人物肖像中有很多方面可以被视为随机的，例如头发、胡茬、雀斑或皮肤毛孔的精确位置。只要它们遵循正确的分布，任何这些都可以被随机化，而不影响我们对图像的感知。

让我们考虑一下传统的生成器如何实现随机变化。鉴于网络的唯一输入是通过输入层，网络需要发明一种方法，在需要时从早期激活中生成空间变化的伪随机数。这会消耗网络容量，并且隐藏生成信号的周期性很困难，而且并不总是成功，生成图像中常见的重复模式就证明了这一点。我们的架构通过在每次卷积后添加每像素噪声来完全回避这些问题。

随机变化的例子。 (a) 两个生成的图像。 (b) 放大输入噪声的不同实现。虽然整体外观几乎相同，但个别毛发的位置却截然不同。 (c) 超过 100 种不同实现的每个像素的标准偏差，突出显示图像的哪些部分受到噪声的影响。主要区域是头发、轮廓和部分背景，但眼睛反射也存在有趣的随机变化。身份和姿势等全局方面不受随机变化的影响。

图 4 显示了同一底层图像的随机实现，该图像是使用我们的具有不同噪声实现的生成器生成的。我们可以看到噪声仅影响随机方面，而整体组成和高级方面（例如身份）完好无损。图 5 进一步说明了将随机变化应用于不同层子集的效果。由于这些效果最好在动画中看到，因此请查阅随附的视频，以了解如何更改一层的噪声输入导致匹配比例的随机变化。

我们发现有趣的是，噪声的影响似乎紧密地集中在网络中。我们假设在生成器中的任何一点，都存在尽快引入新内容的压力，而我们的网络创建随机变化的最简单方法是依赖所提供的噪声。每一层都有一组新的噪声，因此没有动力从早期激活中产生随机效应，从而导致局部效应。

3.3. Separation of global effects from stochasticity

前面的部分以及随附的视频表明，虽然风格的变化具有全局影响（改变姿势、身份等），但噪声仅影响无关紧要的随机变化（不同梳理的头发、胡须等）。这一观察结果与风格迁移文献一致，其中已经确定空间不变的统计数据（格拉姆矩阵、通道均值、方差等）可靠地编码图像的风格 [20, 39]，而空间变化的特征编码一个具体的实例。

在我们基于样式的生成器中，样式会影响整个图像，因为完整的特征图会使用相同的值进行缩放和偏置。因此，可以连贯地控制姿势、光照或背景样式等全局效果。同时，噪声独立地添加到每个像素，因此非常适合控制随机变化。如果网络尝试使用噪声进行控制，例如姿势，这将导致空间不一致的决策，然后受到鉴别器的惩罚。因此，网络在没有明确指导的情况下学会了适当地使用全局和局部渠道。

4. Disentanglement studies

解缠结有多种定义[54,50,2,7,19]，但共同的目标是由线性子空间组成的潜在空间，每个子空间控制一个变化因素。然而，Z 中每个因素组合的采样概率需要与训练数据中相应的密度相匹配。如图 6 所示，这使得这些因素无法与典型数据集和输入潜在分布完全分离。

我们的生成器架构的一个主要好处是中间潜在空间 W 不必支持根据任何固定分布进行采样；它的采样密度是由学习的分段连续映射 f(z) 引起的。这种映射可以适应“反扭曲”W，从而使变化因素变得更加线性。我们认为生成器这样做是有压力的，因为基于解纠缠表示生成逼真的图像应该比基于纠缠表示更容易。因此，我们期望训练在无监督的环境中产生较少纠缠的 W，即当事先不知道变化因素时 [10,35,49,8,26,32,7]。

不幸的是，最近提出的用于量化解缠结的指标[26,32,7,19]需要一个将输入图像映射到潜在代码的编码器网络。这些指标不适合我们的目的，因为我们的基线 GAN 缺乏这样的编码器。虽然可以为此目的添加额外的网络 [8,12,15]，但我们希望避免将精力投入到不属于实际解决方案的组件上。为此，我们描述了两种量化解缠结的新方法，这两种方法都不需要编码器或已知的变化因素，因此对于任何图像数据集和生成器都是可计算的。

4.1. Perceptual path length

正如 Laine [37] 所指出的，潜在空间向量的插值可能会在图像中产生令人惊讶的非线性变化。例如，任一端点中不存在的特征可能会出现在线性插值路径的中间。这是潜在空间纠缠在一起并且变异因素没有正确分离的迹象。为了量化这种影响，我们可以测量当我们在潜在空间中执行插值时图像经历的剧烈变化。直观上，较小弯曲的潜在空间应该比高度弯曲的潜在空间产生感知上更平滑的过渡。

作为我们度量的基础，我们使用基于感知的成对图像距离 [65]，该距离计算为两个 VGG16 [58] 嵌入之间的加权差，其中权重经过拟合，以便度量与人类感知相似性判断一致。如果我们将潜在空间插值路径细分为线性段，我们可以将该分段路径的总感知长度定义为每个段上的感知差异之和，如图像距离度量所报告的。感知路径长度的自然定义是无限细细分下该总和的极限，但实际上我们使用小细分 epsilon = 10^−4 来近似它。因此，潜在空间 Z 中所有可能端点的平均感知路径长度为

其中 z1, z2 ∼ P(z), t ∼ U(0, 1)，G 是生成器（即基于风格的网络的 g°f），d(·,·) 评估生成的图像。这里 slerp 表示球形插值 [56]，这是在我们的归一化输入潜在空间 [61] 中最合适的插值方式。为了专注于面部特征而不是背景，我们在评估成对图像度量之前裁剪生成的图像以仅包含面部。由于度量 d 是二次的[65]，我们除以2。我们通过抽取 100,000 个样本来计算期望值。

计算 W 中的平均感知路径长度以类似的方式进行：

唯一的区别是插值发生在 W 空间中。由于 W 中的向量未以任何方式标准化，因此我们使用线性插值 (lerp)。

表 3 显示，对于带有噪声输入的基于样式的生成器，该全路径长度要短得多，这表明 W 在感知上比 Z 更线性。然而，该测量实际上稍微偏向于输入潜在空间 Z。如果 W 确实是 Z 的解缠结和“扁平化”映射，它可能包含不在输入流形上的区域，因此生成器重建得很差，甚至在从输入流形映射的点之间也是如此，而输入潜在空间根据定义，Z 没有这样的区域。因此，如果我们将测量限制在路径端点，即 t ∈ {0, 1}，我们应该获得更小的 lW，而 lZ 不受影响。这确实是我们在表 3 中观察到的。

表 4 显示了映射网络如何影响路径长度。我们发现传统的生成器和基于样式的生成器都受益于映射网络，并且额外的深度通常会改善感知路径长度和 FID。有趣的是，虽然传统生成器的 lW 有所改善，但 lZ 变得相当糟糕，这说明了我们的观点，即输入潜在空间确实可以在 GAN 中任意纠缠。

4.2. Linear separability

如果潜在空间被充分解开，应该有可能找到与各个变化因素一致对应的方向向量。我们提出了另一种度量，通过测量潜在空间点通过线性超平面分成两个不同集合的程度来量化这种效果，以便每个集合对应于图像的特定二元属性。

为了标记生成的图像，我们针对许多二元属性训练辅助分类网络，例如，区分男性和女性面孔。在我们的测试中，分类器具有与我们使用的判别器相同的架构（即与 [30] 中相同），并使用 CELEBA-HQ 数据集进行训练，该数据集保留了原始 CelebA 数据集中可用的 40 个属性。为了测量一个属性的可分离性，我们生成 200,000 张具有 z ∼ P(z) 的图像，并使用辅助分类网络对它们进行分类。然后，我们根据分类器置信度对样本进行排序，并删除置信度最低的一半，产生 100,000 个标记的潜在空间向量。

对于每个属性，我们拟合一个线性 SVM 来根据潜在空间点（z 表示传统点，w 表示基于风格）来预测标签，并通过该平面对点进行分类。然后，我们计算条件熵 H(Y|X)，其中 X 是 SVM 预测的类别，Y 是由预训练分类器确定的类别。这告诉我们需要多少附加信息来确定样本的真实类别，前提是我们知道它位于超平面的哪一侧。较低的值表明相应的变异因素的潜在空间方向一致。

我们将最终的可分离性得分计算为 exp(  i H(Yi|Xi))，其中 i 枚举了 40 个属性。与初始分数[53]类似，求幂将值从对数域引入线性域，以便更容易比较。

表 3 和表 4 显示，W 始终比 Z 具有更好的可分离性，表明纠缠较少。此外，增加映射网络的深度可以提高图像质量和 W 的可分离性，这符合合成网络本质上有利于解纠缠输入表示的假设。有趣的是，在传统生成器前面添加映射网络会导致 Z 中的可分离性严重丧失，但改善了中间潜在空间 W 中的情况，并且 FID 也得到了改善。这表明，当我们引入不必遵循训练数据分布的中间潜在空间时，即使是传统的生成器架构也能表现得更好。

5. Conclusion

基于我们的结果和 Chen 等人[6]的并行工作，越来越明显的是，传统的 GAN 生成器架构在各个方面都不如基于风格的设计。就已建立的质量指标而言确实如此，我们进一步相信，我们对高级属性和随机效应的分离以及中间潜在空间的线性度的研究将在提高 GAN 的理解和可控性方面取得丰硕成果合成。

我们注意到，我们的平均路径长度度量可以在训练期间轻松地用作正则化器，也许线性可分离性度量的某些变体也可以充当正则化器。总的来说，我们期望在训练期间直接塑造中间潜在空间的方法将为未来的工作提供有趣的途径。

A. The FFHQ dataset

我们收集了一个新的人脸数据集 FlickrFaces-HQ (FFHQ)，由 70,000 张分辨率为 10242 的高质量图像组成（图 7）。该数据集在年龄、种族和图像背景方面比 CELEBA-HQ [30] 包含更多的变化，并且对眼镜、太阳镜、帽子等配件的覆盖范围也更好。这些图像是从 Flickr 爬取的（因此继承了该网站的所有偏见）并自动对齐[31]和裁剪。仅收集经过许可的图像。使用各种自动过滤器来修剪场景，最后 Mechanical Turk 允许我们删除偶尔的雕像、绘画或照片。我们已在 https://github.com/NVlabs/ffhq-dataset 上公开提供该数据集

B. Truncation trick in W

如果我们考虑训练数据的分布，很明显，低密度区域的代表性较差，因此生成器可能难以学习。这是所有生成建模技术中的一个重要的开放问题。然而，众所周知，从截断的 [42, 5] 或缩小的 [34] 采样空间中绘制潜在向量往往会提高平均图像质量，尽管会丢失一些变化量。

C. Hyperparameters and training details

我们以 Karras 等人[30]的渐进式 GAN 的官方 TensorFlow [1] 实现为基础，我们从中继承了大部分训练细节。这个原始设置对应于表 1 中的配置 A。特别是，我们使用相同的判别器架构、分辨率相关的小批量大小、Adam [33] 超参数和指数移动平均值发电机的。我们为 CelebA-HQ 和 FFHQ 启用镜像增强，但为 LSUN 禁用它。我们在配备 8 个 Tesla V100 GPU 的 NVIDIA DGX-1 上的训练时间大约为一周。

对于我们改进的基线（表 1 中的 B），我们进行了一些修改以提高整体结果质量。我们用双线性采样替换两个网络中的最近邻上/下采样，我们通过在每个上采样层之后和每个下采样层之前使用可分离的二阶二项式滤波器对激活进行低通滤波来实现[64]。我们以与 Karras 等人相同的方式实施渐进式种植。 [30]，但我们从 82 张图像开始，而不是 42 张。对于 FFHQ 数据集，我们从 WGAN-GP 切换到非饱和损失 [22]，并使用 R1 正则化 [44]，使用 γ = 10。使用 R1，我们发现与 WGAN-GP 相比，FID 分数持续下降的时间要长得多，因此我们将训练时间从 1200 万张图像增加到 2500 万张图像。我们使用与 Karras 等人相同的学习率。 [30] 对于 FFHQ，但我们发现将 5122 和 10242 的学习率设置为 0.002 而不是 0.003 可以使 CelebA-HQ 具有更好的稳定性。

对于我们基于样式的生成器（表 1 中的 F），我们对所有层使用 α = 0.2 的leaky ReLU [41] 和均衡学习率 [30]。我们在卷积层中使用与 Karras 等人相同的特征图计数。 [30]。我们的映射网络由 8 个全连接层组成，所有输入和输出激活的维度（包括 z 和 w）为 512。我们发现，增加映射网络的深度往往会导致高学习率下的训练不稳定。因此，我们将映射网络的学习率降低了两个数量级，即 λ = 0.01 · λ。我们使用 N(0, 1) 初始化卷积层、全连接层和仿射变换层的所有权重。综合网络中的常数输入被初始化为一。偏差和噪声缩放因子都初始化为零，但与 ys 相关的偏差除外，我们将其初始化为 1。

我们的可分离性度量（第 4.2 节）使用的分类器与我们的判别器具有相同的架构，除了小批量标准差 [30] 被禁用。我们使用 10−3 的学习率、8 的小批量大小、Adam 优化器和 150,000 张图像的训练长度。分类器独立于生成器进行训练，并且使用相同的 40 个分类器（每个 CelebA 属性一个）来测量所有生成器的可分离性度量。我们将发布预先训练的分类器网络，以便可以重现我们的测量结果。

我们在网络中不使用批量归一化[29]、谱归一化[45]、注意力机制[63]、dropout[59]或像素特征向量归一化[30]。

D. Training convergence

图 9 显示了在使用 FFHQ 数据集训练我们的配置 B 和 F 期间，FID 和感知路径长度指标如何演变。随着 R1 正则化在两种配置中都处于活动状态，FID 随着训练的进行而继续缓慢减少，这促使我们选择将训练时间从 12M 图像增加到 25M 图像。即使训练达到完整的 10242 分辨率，缓慢增加的路径长度也表明 FID 的改进是以更加纠缠的表示为代价的。考虑到未来的工作，这是一个有趣的问题，这是否是不可避免的，或者是否可以在不影响 FID 收敛性的情况下鼓励更短的路径长度。

E. Other datasets

图 10、11 和 12 分别显示了 LSUN [62] BEDROOM、CARS 和 CATS 的一组未经整理的结果。在这些图像中，我们使用附录 B 中的截断技巧，其中 ψ = 0.7，分辨率为 42 − 322。随附的视频提供了风格混合和随机变化测试的结果。从其中可以看出，在卧室的情况下，粗略的样式基本上控制相机的视角，中间的样式选择特定的家具，而精细的样式处理颜色和材料的较小细节。在《赛车》中，效果大致相似。随机变化主要影响卧室中的织物、汽车中的背景和头灯以及猫中的毛皮、背景和有趣的爪子的位置。有点令人惊讶的是，汽车的车轮似乎永远不会根据随机输入旋转。

这些数据集使用与 FFHQ 相同的设置进行训练，BEDROOM 和 CATS 的图像持续时间为 70M，CARS 的图像持续时间为 46M。我们怀疑 BEDROOM 的结果开始接近训练数据的极限，因为在许多图像中，最令人反感的问题是从低质量训练数据继承的严重压缩伪影。 CARS 拥有更高质量的训练数据，还允许更高的空间分辨率（512 × 384 而不是 2562），而 CATS 仍然是一个困难的数据集，因为姿势、缩放级别和背景的内在变化很大。