Improved StyleGAN Embedding: Where are the good latents
公众号:EDPJ
目录
S.1 隐空间(参考 GAN Inversion: A Survey)
S.2 改进的 I2S(Improved Image2StyleGAN,II2S)
0. 摘要
StyleGAN 能够生成与真实照片几乎没有区别的逼真图像。为给定图像找到 embedding 的逆映射问题是一个挑战。能够很好地重建图像的 embedding 并不总是对编辑操作具有鲁棒性。在本文中,我们解决了寻找既能重建图像又能支持图像编辑任务的 embedding 的问题。首先,我们引入了一个新的归一化空间来分析重构隐编码(latent code)的多样性和质量。这个空间可以帮助回答隐空间(latent space)中好的隐编码位于何处的问题。其次,我们根据我们的分析提出了一种改进的 embedding 算法,该算法使用一种新颖的正则化方法。最后,我们分析了不同 embedding 算法的质量。我们将我们的结果与当前最先进的方法进行比较,并在重建质量和编辑质量之间实现更好的权衡。
1. 简介
在本文中,我们着手对现有 embedding 方法进行分析,并将该分析用于改进从图像到 StyleGAN embedding 的方法。一个重要的考虑因素是 embedding 空间的选择,例如 𝑍 空间、𝑊 空间或 𝑊+ 空间。这些空间各自进行权衡——在训练 StyleGAN 或 StyleGAN2 时使用的 𝑍 空间将隐编码限制在超球体中。𝑊 空间没有球体约束,并使用映射网络来解耦隐编码。因此,𝑊 空间比 𝑍 空间纠缠更少。 然而,这两个空间都使用 512 维隐编码。这并不能提供足够的表现力来很好地表示所有真实世界的面孔。𝑊+ 代码的自由度是 𝑊 空间的 18 倍,能够很好地重建图像。然而,这些额外的自由度使 GAN 逆映射成为一个病态问题。 因此,𝑊+ 编码的非正则化逆映射可以在隐空间的低密度部分找到 embedding,因此即使特定图像重建得很好,重建也位于映射网络通常无法到达的区域。根据经验,这会在基于 GAN 的图像处理(例如插值或语义编辑)之后产生未预期的图像。
我们提出了一个合适的空间(𝑃_𝑁 空间)来执行分析。在 𝑃_𝑁 空间中,StyleGAN 隐编码的分布具有非常简单的结构,如图 1 所示,我们用多元正态分布对其进行近似。这使得可以解释在哪里可以找到好的隐编码。分析的一个主要见解是,隐编码的质量与距 𝑃_𝑁 空间中心的距离密切相关。 𝑃_𝑁 空间中的 𝐿_2 范数是隐编码的马氏距离(Mahalanobis distance),因此该空间中的 𝐿_2 正则化将使 embedding 偏向 GAN 隐空间的更密集采样区域。我们发现重建质量受益于与 𝑃_𝑁 空间中原点远离的隐编码,但编辑质量受益于与 𝑃_𝑁 空间中原点靠近的隐编码。这需要在重建质量和编辑质量之间进行权衡。调查 𝑃_𝑁 空间中隐编码的各个维度,可以深入了解当前方法所做的权衡。
我们提出了一种改进的 embedding 算法,通过引入一个正则化器来鼓励 embedding 更接近 𝑃_𝑁 空间的原点,这是训练数据的 𝑊 隐编码具有最高密度的地方。我们进一步将其扩展到容量更高的𝑊+ 空间,引入相应的 𝑃_𝑁+ 正则化器。我们的正则化器的优点是它明确地控制到原点的距离并且没有不良副作用。特别是,正则化器会将解决方案偏向隐空间的更密集和可编辑的部分,但它不会阻止优化找到减少重建错误的解决方案。正则化会略微降低重建质量,但远低于约束。此外,正则化超参数允许控制重建质量和可编辑性之间的权衡。最后,我们提出了第一个综合评估,比较不同的最先进的 embedding 算法。评估不仅考虑重建质量,还考虑各种编辑(姿势、光照和年龄)的效果以及 embedding 算法对条件 embedding 任务(超分辨率、图像着色和修复)的影响。我们的主要贡献是:
- 引入 𝑃_𝑁 和 𝑃_𝑁+ 空间来分析和正则化 StyleGAN embedding。
- 一种用于 StyleGAN embedding 的新正则化器,可在重建和编辑质量之间提供最佳权衡。
- 许多最先进的 embedding 算法的综合评估。我们的评估不仅强调重建,还强调对下游编辑任务的影响。
2. 相关工作
与 GAN 图像 embedding 中的大多数其他工作类似,我们建立在 StyleGAN上,由于其卓越的视觉质量和相对轻量级的架构。
自从最近 Image2StyleGAN (I2S) 首先提出了一种将给定图像嵌入到 StyleGAN 生成器的 𝑊+ 隐空间中的可行方法,已经有许多工作试图改进最初的想法。
大多数现有方法都有相同的目标:在重建质量和编辑质量之间找到平衡。
- I2S++ 通过结合噪声优化步骤来恢复输入图像中的高频细节,提高了 I2S 的重建质量。
- 同样地,StyleGAN2 使用附加的斜降噪声来帮助探索隐空间。这两种方法导致了不同的权衡:I2S++ 将图像嵌入到 𝑊+ 空间,牺牲了一点编辑质量以获得更好的重建质量;相反,StyleGAN2 在 𝑊 空间中嵌入图像,可以实现更好的编辑,但代价是重建更差。
- 采用不同的方法,PIE 首先将图像嵌入 𝑊 空间以获得更好的编辑质量,然后通过优化在 𝑊+ 空间中获得的隐编码来提高重建质量。
- 这种两阶段编码过程也被几个基于编码器网络的并行工作所采用,据我们所知首次出现在 iGAN。 在他们的方法中,首先通过将输入图像传递给预训练的 StyleGAN 编码器来获得初始隐编码。然后,进一步优化初始隐编码以提高其重建质量。仅使用编码器网络本身会导致重建质量差。
与以前的方法不同,PULSE 将 embedding 公式化为,遍历由良好隐编码组成的流形。但是,他们将隐编码限制在仅包含良好隐编码子集的超球体的表面上。因此,他们的方法通常会导致较差的重建质量。受 PULSE 的启发,在本文中,我们提供了对良好隐编码位置以及如何评估 embedding 的全面分析。根据我们的分析,我们提出了一种改进的 embedding 算法,该算法优于所有现有方法。
3. 使用哪个空间:隐编码分布的统计分析
本节的目标是确认隐编码分布具有简单结构的空间。合适的空间将使推断 StyleGAN 生成器的隐编码好坏变得更容易。为了找到这样的隐空间,我们对图 2 所示的不同隐空间中的隐编码分布进行了统计分析,包括 𝑊、𝑃_𝑁、𝑊+ 和𝑃_𝑁+ 空间。
W 空间:StyleGAN 中提出的 𝑊 空间是隐空间最直接的选择。因此,我们分析 𝑊 空间中一百万个隐编码的分布,并直观地检查其边缘分布的统计数据。我们首先在 𝑍 空间中生成随机样本,然后通过在 StyleGAN2 的映射层中前向传播来对该空间进行采样 。我们使用与 StyleGAN 相同的输入分布,其中 𝑍 空间中的隐编码在通过映射网络传播之前被投影到超球体上。如图 1 (a) 所示,边缘分布严重偏斜。
P 空间:为了消除边缘分布的偏斜,我们通过反转 StyleGAN 映射网络中的最后一个 Leaky ReLU 层,将 𝑊 空间转换为 𝑃 空间。 由于最后一个 Leaky ReLU 使用 1/5 的斜率,我们使用
其中 w 和 x 分别是 𝑊 和 𝑃 空间中的隐编码。与 𝑊 空间中的那些类似,我们绘制了 𝑃 空间中隐编码的边缘分布,并观察到它们似乎遵循简单的类高斯分布。我们绘制了隐编码的成对联合分布(见图 1b)并观察到维度在统计上不是独立的。基于边缘图,我们怀疑分布可能是多元正态分布,因此我们使用 1,000 个样本对 512 维的多元正态性进行了 Henze-Zirkler 检验,检验结果表明数据不正态,显着性为 𝛼 = 5%。我们还使用了多元正态性的 Mardia 检验,该检验基于对多元偏斜和峰度的测量。Mardia 测试有相似的结果; 分布不正态,显着性为 5%。
我们测试了数据沿每个主成分轴的边际分布,根据 Mardia 检验,发现 512 个边际中有 219 个在 5% 的显着性下是正态的。在图 3 中,我们显示了两个边缘分布,其中 Mardia 统计表明数据不是正态的。由于当我们观察单个轴时,分布在视觉上似乎具有单峰钟形边缘分布,我们使用 Dip 测试单峰性,并证实多元分布确实有一个单峰。虽然分布不是多元正态分布,但它是单峰的并且具有相关特征。基于图 1 和图 3,即使数据不正态,数据也可以很好地近似于正态分布。数据不能真正正态分布的另一个原因是因为映射网络使用了 MLP 架构。这样的架构创建了一个具有紧凑支持的分布,并且生成的隐变量不能任意大。这促使我们引入 𝑃_𝑁 空间,其中的隐分布更容易表征。
𝑃_𝑁 空间:我们的𝑃_𝑁空间受主成分分析(PCA)白化的启发,旨在消除 𝑃 空间中隐变量之间的依赖关系。我们定义从 𝑃 到我们的 𝑃_𝑁 空间的转换为:
其中 Λ 是奇异值的对角矩阵,U 是主成分方向的正交矩阵,𝝁 是均值向量。直观地,这种白化或球化变换将每个隐变量的分布映射为零均值和单位方差。因此,我们 𝑃_𝑁 空间中的隐分布看起来像一个在所有方向上各向同性的球(图 1c)。
𝐿2 范数 ∥^v∥ 与点 x∼𝑁(𝝁,Σ) 的 Mahalanobis 距离(表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法) 𝑑_𝑀 (·)有关,奇异值分解为对称的 Σ=UΛU^𝑇,即
这个空间对于正则化我们的 embedding 算法有用,因为它使解决方案偏向 embedding 的模式 𝝁,并且它对训练 GAN 时使用的空间中的低方差方向更敏感(正则化更有效)。该空间对隐编码的影响如图 4 所示。
我们受到广义 Tikhonov 正则化的启发,它将隐编码偏向隐空间的更密集部分。与截断不同,这种正则化方法对输入分布具有较高精度的子空间影响更大,而对输入分布具有高方差的子空间影响较小。例如,简单地将隐编码移向 𝑊+ 空间中的原点,也会改变对重建很重要的隐编码的组成部分。 另一方面,基于𝑑_𝑀(即在 𝑃_𝑁 空间)的正则化具有理想的效果,即它保留了训练语料库中具有高变异性的成分。
如果没有正则化,编辑会受到影响,因为图像包含未被 GAN 建模的元素,因此它们的 embedding最终可能会出现在 embedding 空间中探索较少的区域,GAN 甚至可能产生低质量的结果,尽管逆映射的特定图像似乎是合理的。这种效果可以通过比较负对数密度(马氏距离,𝑑2𝑀=∥^v∥2)与有无正则化的 GAN 逆映射的优化步骤数来观察,如图 5 所示。重建质量的提高可以忽略不计,而对数密度变得任意高。编辑操作将 embedding 移动到新位置,因此如果原始 embedding 位于 embedding 空间的高密度部分,则扰动 embedding 也可能位于高密度区域附近。然而,在空间的低密度部分,扰动图像也将具有低密度,并且由于它不是逆映射 “真实世界”图像的结果,因此可能被认为是低质量或不真实的。
为了验证我们的 𝑃_𝑁 空间的有效性,我们从 𝑃_𝑁 空间中的标准正态分布中采样,并将我们获得的 FID 分数与 StyleGAN2 的进行对比。𝑃_𝑁 空间采样产生的 FID 为 3.28,而 StyleGAN2 的 FID 为 2.81。如此微小的差异支持 𝑃_𝑁 空间的有效性。相比之下,将正态分布拟合到 𝑊 空间并从中采样会产生 76.63 的 FID。虽然有利于表征隐分布,但 𝑃_𝑁 空间对于图像 embedding 来说过于受限。为此,我们将其扩展到 I2S 之后的 𝑃_𝑁+ 空间。
𝑃_𝑁+ 空间:类似于连接 18 个不同的 512 维 w 隐编码 (w_𝑖),实现从 𝑊 空间到 𝑊+ 空间的扩展,
我们将 𝑃_𝑁 空间扩展到 𝑃_𝑁+ 空间
每个隐编码都用于解调不同层的相应 StyleGAN 特征图。我们建议使用 𝑃_𝑁+ 空间来分析和正则化 StyleGAN 逆映射算法。
4. 改进的 I2S(Improved I2S,II2S)
4.1 重建损失
I2S 的一个重要方面是使用基于 VGG 感知损失的感知正则化器。然而,我们发现使用 L_PIPS 取得了显着改善。遵循 PULSE,我们还建议对生成的图像使用双三次(bicubic)下采样,对参考图像使用 Lanczos 下采样。我们没有对两者都使用 Lanczos,因为它不可区分。尽管如此,我们观察到当前的设置比在这两种情况下使用双三次采样效果更好。
4.2 基于 𝑃_𝑁+ 密度的损失
根据我们的结果,设计一个正则化器似乎是最有希望的,如果 embedding 距离 𝑃_𝑁+ 的中心太远,它就会惩罚 embedding。令 𝐼 为输入图像,𝐿 = 𝐿_𝐿𝑃𝐼𝑃𝑆 + 𝐿2 是由 L_PIPS 和像素级 L2 损失项组成的损失函数,w+ 和 v 分别为 𝑊+ 和 𝑃_𝑁+ 空间中的隐编码,𝜆 是控制正则化超参数。我们有:
5. 评估
本节的目的是对不同的 embedding 算法进行广泛的评估和比较。为此,我们提出了一系列任务。
我们广泛测试了许多包含代码的方法,并选择了性能最佳的方法以进行更详细的比较。我们将我们提出的 II2S 方法(第 4 节)与以下最先进的方法进行了比较:
- I2S 是我们想要改进的基线方法,它将图像嵌入到 𝑊+ 空间中。
- PULSE 提出嵌入到 𝑍 空间中超球体的表面。
- StyleGAN2 在噪声正则化的帮助下将图像嵌入到 W 空间中。
- StyleGAN2Encoder 使用 logcosh 图像损失、MS-SSIM 损失、隐编码的 L1 惩罚和其他几种损失将图像嵌入𝑊+ 空间。此外,他们还使用提前停止来防止过拟合。
- pSp 提出了一种新颖的编码器架构,将给定图像映射到 𝑊+ 空间。
请注意,我们更新了 I2S 和 PULSE 以使用 StyleGAN2,并调整了 I2S 的超参数设置以限制过拟合。我们不与 IDInvert 和 Multi-code embedding 进行比较,因为它们只适用于在 256 × 256 的低分辨率下的原始的 StyleGAN 架构。我们也不使用 I2S++ 提出的 noise embedding,因为编辑质量太难控制了。
5.1 重建质量
在这项工作中,我们测量 embedding 的重建质量
- i) 完全使用 RMSE(Root-Mean-Square error,均方根误差)、PSNR(Peak Signal to Noise Ratio,峰值信噪比)
- ii) 感知使用 SSIM(Structural Similarity,结构相似性)、VGG 感知相似性、L_PIPS 感知相似性以及输入和嵌入图像之间的 FID 分数。
结果如表 1 所示。我们的方法,使用 𝜆 = 0.001 和 I2S 的 II2S 在所有指标中排名第一或第二,SSIM 除外。但是,我们注意到这些指标不如用户感知评估(perceptual user evaluations)重要。
表 2 展示了针对 𝜆 = 0.005 的更强正则化设置的用户研究(选择 II2S 而不是竞争方法的响应百分比)。这是我们推荐的设置,用于在编辑质量和重建质量之间取得最佳权衡。在这里,II2S 重建结果比 I2S 以外的任何竞争方法都更被用户接受。
在图 6 中,我们展示了重建质量。请注意,在以更高分辨率查看 embedding 结果时,其他方法可能会有视觉缺陷(artifacts)或与某些示例的原始方法有很大不同。
5.2 编辑质量
与重建不同,embedding 的编辑质量尚未得到研究,因为竞争性编辑框架最近才出现。请注意,这些编辑框架与我们的工作正交,因为它们没有提出新的 embedding 算法。我们选择 StyleFlow 作为我们主要的编辑评估方法,因为它通常会产生最高质量的编辑。
在图 7 中,我们直观地比较了不同方法的编辑结果。
表 2 中显示的用户研究结果(选择 II2S 而不是竞争方法的响应百分比)表明,对 II2S 生成的隐编码的编辑操作可在不同的编辑任务中保持图像质量。对于所有任务,我们的编辑结果优于其他方法的编辑。有点令人惊讶的是,SG2 是第二好的编辑方法。根据我们对结果的可视化分析,我们观察到以下问题。一些 embedding 算法计算无法很好编辑的隐编码,编辑后,新的隐编码可能会产生一个非常相似的新图像,但没有完全完成编辑任务。例如,当执行编辑以更改年龄时,PULSE 生成的结果看起来明显比目标年龄年轻。我们在补充材料中使用最先进的分类器 Microsoft Face API 进一步研究了这种现象。
5.3 条件 embedding 质量
我们考虑四种条件 embedding 应用:图像着色、修复、超分辨率和风格迁移。令 𝐼 为输入“条件”图像,𝐺 为 StyleGAN 生成器。 条件 embedding 旨在在 𝑊+ 空间中定位最佳隐编码 w+∗,以便嵌入图像 𝐺(w+∗)
- i) 忠实地捕捉 𝐼 的“条件”,
- ii) 是逼真的人脸图像。
因此,我们将条件 embedding 定义为:
其中,𝑓 是修改图像以满足预定义条件(例如灰度)的“条件”函数,𝐿 是衡量两个图像之间相似性的损失函数(例如像素级 𝐿2 损失,感知损失),𝜆 是超参数,𝑅 是正则化器。请注意,普通 embedding 和条件 embedding 之间的唯一区别是 𝑓 的加入。
对于图像着色,输入图像 𝐼 是灰度图像,条件函数 𝑓 将彩色图像转换为灰度图像。对于修复,输入图像 𝐼 是一个不完整的图像,条件函数 𝑓 是一个掩码(mask)函数,它擦除给定区域中的像素。 在我们的测试中,缺失区域是图像的一半。对于超分辨率,输入图像 𝐼 是 32 × 32 的低分辨率图像,条件函数 𝑓 是下采样函数。
风格迁移任务是使用不同的方法完成的。令 𝐺 和 𝐺′ 是两个StyleGAN 生成器,𝐺 在FFHQ 数据集上训练,𝐺′ 是在 MetFace 数据集上微调的 𝐺 的变体。我们的风格迁移是通过将输入图像嵌入到 𝐺,然后使用 𝐺' 评估生成的隐编码来实现的。
四个应用的相应用户研究结果(选择 II2S 而不是竞争方法的响应百分比)如表 2 所示。前三个任务的视觉结果示例如图 8 所示,风格迁移的结果如图 7 所示。
- 从用户研究中我们可以注意到,用户将我们的图像着色结果评为最成功。令人惊讶的是,它们的排名甚至比真实图像(Ground Truth)更逼真。我们将此归因于这样一个事实,即几个真实图像是风格化的照片。
- 对于超分辨率结果,我们询问用户哪张图像最接近真实图像。我们的结果显然优于所有已发布的竞争对手 I2S 和 PULSE。虽然我们的结果也优于 pSp,但它们在统计上并不显着。
- 对于修复,我们也明显优于所有竞争对手。这是我们的方法唯一明显偏离 Ground Truth 的结果。我们将此归因于我们对非常大的缺失区域(图像的一半)进行了修复。这是一项非常具有挑战性的任务。
- 对于 pSp,我们无法完成着色和修复比较,因为 pSp 需要为每个任务预训练一个单独的编码器。作者没有提供相应的编码器。
- 同样,我们没有在前三个任务上与 SG2 和 S2E 进行比较。这将需要我们在 TensorFlow 中重新实现条件 embedding。
5.4 用户研究
我们使用 Amazon Mechanical Turk (MTurk) 进行了一系列用户研究。对于每项任务,图像都是使用 II2S 和竞争方法生成的。每对图像在 Amazon Mechanical Turk 上呈现给 worker 两次,一次按顺序(II2S、Source、Other),一次按相反的顺序,因此基于图像在调查中的位置的偏好不会成为问题。系统会提示用户选择最能完成任务且缺陷最少的图像。
表 2 显示了选择 II2S 而不是竞争方法的响应百分比,高于 50% 的数字意味着选择 II2S 解决方案的频率更高。每项调查收到 120 份回复,因此低于 40% 或高于 60% 的任何数字在 95% 的置信度下具有统计显着性。
- II2S 在大多数任务上都优于竞争方法,只有少数例外。
- I2S 的重建结果更好,但是 I2S 实际上是没有正则化的相同方法,因此人们会预期它在重建方面做得更好,而在编辑任务方面做得更差。
- pSp 编辑年龄的方法受到了更多用户的青睐,但结果在统计学上并不显着。
- 对于条件 GAN 任务,II2S 优于 Ground Truth,这是预期的。
总而言之,我们认为我们的评估表明我们提出的正则化器对下游应用有重大影响。
5.5 消融研究
我们方法中最重要的参数是正则化器的强度。基于许多实验,我们手动选择了 𝜆 的三个设置(0.01、0.005 和 0.001)进行比较。选择这些设置是为了在从 embedding 生成的图像之间看到明显的视觉差异。
在图 6 中,我们展示了 𝜆 = 0.005 和 𝜆 = 0.001 之间的视觉差异。
在表 1 中,我们展示了 𝜆 如何影响重建指标。然而,重建指标并不像人类感知那样信息丰富。
表 3 显示了评估 𝜆 不同选择的用户研究(用户高度评价该类而不是另外两类图像的百分比),根据平均用户响应,我们为论文中的所有测试选择 𝜆 = 0.005 作为重建和编辑质量之间的权衡。
5.6 embedding 的直方图
我们直观地分析 𝑃_𝑁+ 空间中的直方图,以获得关于不同 embedding 算法的更多见解。为了计算直方图,我们使用不同的算法嵌入了数据集的 120 张图像。然后我们取 𝑃_𝑁+ 中每个隐编码的第 20维度。对于除 SG2 之外的所有方法,每个嵌入图像有 18 个这样的隐编码。对于 SG2,我们将相同的值重复 18 次。
在图 9 中,我们展示了直方图。
- 对于第一个直方图,由 I2S overfitting 表示,我们以高学习率运行 I2S。正如我们所知,此设置会导致过拟合,我们可以观察到过拟合呈现更宽、具有更高方差和更多离群值的直方图。
- 编码器 PULSE 和 S2E 的直方图具有最低方差,表明 embedding的隐编码更接近 𝑃_𝑁+ 的原点。我们推测窄直方图与欠拟合(underfitting)有关。
- SG2 的直方图看起来很奇怪。这可能是由于 SG2 的独特样本较少。尽管如此,方差还是大大高于我们的预期。
6. 局限性、未来工作和结论
我们的工作有一些局限性,我们留给未来的工作。 一个局限性是我们没有研究扩展隐空间的 18 个不同组件之间的相关性。通过在 𝑍+ 空间中对新的隐编码进行采样,我们知道对 18 个组件进行独立采样会导致较差的结果。然而,尚不清楚它们的相似性是否应该由额外的正则化器来强制执行,因为在尝试文献中提出的不同正则化器(例如分层优化或 𝐿2 相似性)时,我们无法真正观察到一致的改进。将来,我们想重新讨论这个话题。
我们引入了 𝑃_𝑁 空间,以改进 Style-GAN embedding 和分析不同的 embedding 算法。切换到 𝑃_𝑁 空间可以大大帮助后续工作。我们为 StyleGAN embedding 提出了一种新的正则化器,可在重建质量和编辑质量之间提供最佳权衡。最后,我们进行了广泛的评估,突出了以往工作的优势和劣势。评估表明,我们的结果明显优于下游应用的所有竞争方法。
参考
Zhu, Peihao, et al. "Improved stylegan embedding: Where are the good latents?." arXiv preprint arXiv:2012.09036 (2020).
附录
D. PULSE 正则化器问题的直观解释
为了更好地说明 PULSE 正则化器的问题,我们进行了重复嵌入同一图像的实验。对于大多数方法,多次嵌入相同的图像会导致几乎相同的结果。但是,脉冲正则化器使用隐空间子集的投影和随机初始化。此 PULSE 子集具有高质量,但总体而言该限制是不必要的限制。此外,初始起点和初始投影的位置对最终结果有很大影响。我们相信 Pulse 是唯一一种针对相同输入给出不同结果的 embedding 方法。此外,如果 PULSE 的随机初始化不走运,embedding 的结果将与输入图像有很大差异。示例参见图 13。
S. 总结
S.1 隐空间(参考 GAN Inversion: A Survey)
Z 空间:从简单分布(例如:均匀分布)中随机采样得到的空间。
W 空间:使用由多层感知器构成的非线性映射网络把 Z 空间映射到 W 空间。相比于 Z 空间,可以缓解简单分布的限制。如图 1 和图 2 所示,W 空间分布无规则。
W+ 空间:把与网络层数对应数目的 latent code w 串联,然后送入每一层的 AdaIN,得到 W+ 空间。相比于 W 空间,属性有更高的解耦度。在 StyleGAN 中,串联了 18 个维度为 512 的隐编码。
S 空间:通过对生成器的每一层使用不同的仿射变换,把 W 空间转换为 S 空间。相比于 W 空间,属性有更高的解耦度。
P 空间:通过反转 StyleGAN 映射网络中的最后一个 Leaky ReLU 层,将 𝑊 空间转换为 𝑃 空间。 由最后一个 Leaky ReLU 使用 1/5 的斜率,我们使用
如图 1 所示,P 空间的维度分布是类正态分布,但是不同维度之间是相关的,如图 1 和 图 2 所示,多元分布近似于椭球体。
P_N 空间:通过 PCA 白化操作把 P 空间转换为 P_N 空间,从而消除依赖性和冗余。如图 1 和 图 2 所示,多元分布是一个超球体,此时,各个维度相互解耦。
P_N+ 空间:类似于通过串联 W 空间的隐编码,从而实现从 W 空间到 W+ 空间的变换,串联 P_N 空间的隐编码可以得到 P_N+ 空间。
S.2 改进的 I2S(Improved Image2StyleGAN,II2S)
本文的核心思想是在隐空间中寻找一个好的有利于图像编辑的隐编码(embedding)。具体操作是:为 I2S 的损失函数添加一个正则化器,如果隐编码距离 𝑃_𝑁+ 的原点太远,它就会做出惩罚。
其中,v 是 P_N+ 空间的隐编码,||v||^2 也表示为马氏距离(一个点与一个分布之间的距离)。正则化器会将解决方案偏向隐空间分布更密集的部分,在该区域,更有利于图像编辑(对隐编码的更改对图像的影响更大)。
S.3 编辑质量 vs 重建质量
重建质量受益于与 𝑃_𝑁 空间中原点远离的隐编码,但编辑质量受益于与 𝑃_𝑁 空间中原点靠近的隐编码。这需要在重建质量和编辑质量之间进行权衡。
对于正态分布,距离原点越近,分布密度越高。而在分布密集区域,对隐编码微小的改变就会使图像产生较大的改变。因此,靠近原点的隐编码更有利于图像编辑。
然而,这也意味着,对隐编码的微小扰动就会使图像产生较大改变,这是不利于图像重建的。因此,在图像重建时,需要选择远离原点的隐编码。