收录:NIPS2020
地址:https://arxiv.org/abs/2004.02546
摘要
我们基于主成分分析(PCA)在潜在空间或特征空间中识别重要的潜在方向。然后,我们证明了大量的可解释控制可以通过沿主方向的逐层扰动来定义。
提示:以下是本篇文章正文内容,下面案例可供参考
一、介绍
- 我们证明了在GAN潜在空间中应用主成分分析(PCA)可以在StyleGAN的潜在空间和BigGAN的特征空间中找到重要的方向。
- 我们展示了如何修改BigGAN以允许类似StyleGAN的分层风格混合和控制,而无需再培训
- 利用这些思想,我们证明了PCA编辑方向的分层分解可以产生许多可解释的控件。
- 效果如图1
二、发现GAN控件
2.1 背景
在BigGAN模型[5]中,中间层也将潜在向量作为输入:
y
i
=
G
i
(
y
i
−
1
,
z
)
\mathbf{y}_{i}=G_{i}\left(\mathbf{y}_{i-1}, \mathbf{z}\right)
yi=Gi(yi−1,z)
在StyleGAN模型[10,11]中,第一层采用恒定输入0。相反,输出由z的非线性函数控制,作为中间层的输入:
y
i
=
G
i
(
y
i
−
1
,
w
)
with
w
=
M
(
z
)
\mathbf{y}_{i}=G_{i}\left(\mathbf{y}_{i-1}, \mathbf{w}\right) \quad \text { with } \mathbf{w}=M(\mathbf{z})
yi=Gi(yi−1,w) with w=M(z)
2.2 主成分和主特征方向
对于StyleGAN:
从z中随机采样N个向量,计算出w,对w进行PCA找到主成分V,通过下式编辑:
w
′
=
w
+
V
x
\mathbf{w}^{\prime}=\mathbf{w}+\mathbf{V} \mathbf{x}
w′=w+Vx
StyleGAN2 trained on FFHQ:
2.3 分层编辑
StyleGAN的分层编辑
E
(
v
i
,
j
−
k
)
\mathrm{E}\left(\mathbf{v}_{i}, \mathrm{j}-\mathrm{k}\right)
E(vi,j−k)表示编辑方法。如:
E
(
v
1
,
0
−
3
)
\mathrm{E}\left(\mathbf{v}_{1}, \mathrm{0}-\mathrm{3}\right)
E(v1,0−3)表示仅在前四层沿组件v1移动。若对Z进行编辑即
E
(
u
i
,
j
−
k
)
\mathrm{E}\left(\mathbf{u}_{i}, \mathrm{j}-\mathrm{k}\right)
E(ui,j−k)。图3的最后几行对此进行了说明。
3. 发现和结果
3.1 GAN和PCA特性
- 几何结构和视点的大规模变化仅限于前20个主成分(v0-v20)
- PCA还显示StyleGanV2的潜在分布P(w)具有相对简单的结构:主坐标几乎是具有非高斯单峰分布的独立变量。我们还发现,前100个主成分足以描述整体图像外观;剩下的412个维度控制着外观上细微但可察觉的变化;
3.2 模型纠缠和不允许的组合
我们观察到GAN主成分的一些属性,这些属性似乎是从GAN的训练集继承而来的。在某些情况下,这些特性可能是可取的,有些可能是限制
对于在FFHQ face数据集上训练的StyleGAN2,几何变化仅限于前3个组件中的旋转。由于经过仔细校准的培训集,未发现任何翻译。
即使进行分层编辑,我们也可以观察到不同概念之间的一些纠结。
- 将汽车调整为更具“运动性”会导致更具“开放道路”背景,而更具“家庭”背景的汽车则出现在树林或城市街道上。这似乎反映了汽车营销照片中的典型背景。
- 旋转一只狗通常会使它的嘴张开,这可能是狗肖像中相互关联的结果。
- 对于“性别”编辑,一个极端的“男性”面似乎将对象放在麦克风前;而“女性”一面则是正面肖像。有关示例,请参见。
我们还观察到“不允许的组合”,即模型不会应用于某些面的属性。
- “皱纹”编辑会使成年人的脸变老并增加皱纹,但对儿童的脸没有显著影响。
- 化妆和唇膏编辑添加/删除化妆品呈现女性脸,但很少或没有影响男性的脸。
- 当组合“男子气概”和“成人”两种编辑时,所有组合都有效,但尝试制作“男子气概儿童”时除外。有关数字,请参见SM§7。
3.3 比较
没有以前发表的著作解决了我们考虑的问题,即,在现有的GaN中可解释方向的无监督识别。为了证明我们的方法的好处,我们展示了与随机方向和监督方法的定性比较。
随机方向。我们首先比较PCA方向和随机选择的inW方向。请注意,此空间中没有本质上的首选方向,由于正则方向是各向同性的,所以正则方向等价于随机方向。如前一节所述,PCA提供了有用的方向排序,将姿势和最重要的外观分离到第一个组件中。如SM§8所示,每个随机方向包括姿势和外观的混合,两者之间没有分离。
我们通过将主坐标与随机坐标的不同子集随机化来进一步说明这一点。图4包含四个象限,每个象限显示了整个图共享的潜在向量的随机扰动。7个是固定的,其余的504个坐标X8。512是随机的。这会生成这样的图像:猫的姿势和相机角度大致保持不变,但猫的外观和背景会有所不同。相反,固定最后504个坐标并将前八个坐标随机化(图4b)会生成颜色和外观大致保持不变,但相机和方向不同的图像。底部一行显示应用于随机方向的相同过程的结果;说明任何给定的8个方向对输出没有明显影响。SM§8包含更多示例。
监督方法在潜在空间中寻找可解释方向的先前方法需要外部监督,如标记的训练图像或预训练分类器,而我们的方法旨在无监督地自动识别模型固有的变化。
在图5中,我们将一些BigGAN缩放和平移编辑与监督方法[9]发现的类似编辑进行比较,并将StyleGAN人脸属性编辑与监督方法[20]进行比较。在我们的研究结果中,我们观察到一种稍微更多纠缠的趋势(例如,图5d中麦克风和头发的丢失);此外,使用多个组件通常可以获得类似效果的变化。SM§8中显示了来自不同潜在向量的更多示例。然而,我们强调,(a)我们的方法在没有任何监督的情况下获得了这些结果,(b)我们能够识别出许多以前未被证明的编辑;监督每个这将是非常昂贵的,而且,很难事先知道这些政府机构可以进行哪些编辑。
总结
本文演示了使用现有GAN创建图像的简单而强大的方法。我们没有为每项任务训练一个新的模型,而是利用现有的通用图像表示并发现控制它们的技术。这项工作表明,未来有相当多的机会来分析这些图像表示,并在这些空间中发现更丰富的控制技术,例如,使用PCA以外的其他无监督方法。我们的早期实验是在特征图的其他排列上执行PCA,这是有希望的。我们的许多观察结果表明,GAN架构和训练有所改进,可能类似于[6]。将主成分分析的方向与在解纠缠过程中通过并行工作学习到的方向进行比较是很有意思的。G[13]. 我们的方法还为编辑的监督培训提出了建议,例如使用我们的表示来缩小搜索空间。我们同时开发了几种方法来探索相似或相关的想法[24,15,25,21,1],比较或组合方法可能也很有用。