The GAN is dead; long live the GAN! A Modern Baseline GAN
目录
The GAN is dead; long live the GAN! A Modern Baseline GAN
2. 服务两个目标:通过 RpGAN + R1 + R2 实现稳定性与多样性
3.5 瓶颈现代化(Bottleneck modernization) (配置 E)
0. 摘要
广泛流传的一个说法是,生成对抗网络(GAN)难以训练,并且文献中的 GAN 架构充满了经验性的技巧。我们提供了反驳这一说法的证据,并以更有原则的方式构建了一个现代 GAN 基线。
首先,我们推导出一种 行为良好的正则化相对(well-behaved regularized relativistic) GAN 损失函数,解决了此前通过一系列临时技巧应对的模式崩溃和非收敛问题。我们从数学上分析了我们的损失函数,并证明它具有局部收敛的保证,这不同于大多数现有的相对损失函数。
其次,这种损失函数使我们能够摒弃所有的临时技巧,并用 现代架构 取代常见 GAN 中使用的过时骨干网络。以 StyleGAN2 为例,我们提出了一条简化和现代化的路线图,最终得出了一个新的极简主义基线——R3GAN(“Re-GAN”)。
尽管方法简单,我们的方法在 FFHQ、ImageNet、CIFAR和Stacked MNIST 数据集上超越了 StyleGAN2,并在性能上与最新的 GAN 和扩散模型相媲美。
1. 简介
生成对抗网络(GAN)让我们能够通过一次前向传播生成高质量图像。然而,Goodfellow 等人[13]提出的原始目标由于其 minmax 性质而臭名昭著地难以优化。这导致了两个主要担忧:由于不稳定性,训练可能随时发散;生成的图像可能因模式崩溃而丧失多样性。尽管在 GAN 目标函数方面已有进展 [14, 22, 81, 52, 64],但脆弱损失的实际影响仍然普遍存在。这种声名狼藉对 GAN 研究产生了持久的负面影响。
一个相辅相成的问题——部分由这种不稳定性引发——是现有流行的 GAN 骨干网络(如 StyleGAN [29, 31, 30, 32])使用了许多缺乏理论支持的经验性技巧。例如,StyleGAN 使用了一种带有梯度惩罚的非饱和损失 [52] 来提高稳定性(影响样本多样性),但随后采用了一种 minibatch 标准差技巧 [28] 来增加样本多样性。即使没有这些技巧,StyleGAN 骨干仍与 2015 年的 DCGAN [60] 相似,但它仍然是 GigaGAN [26] 和 StyleGAN-T [70] 等最先进 GAN 的常见骨干网络。
相比于扩散模型 [20, 78, 33, 34] 等其他生成模型的现代化进展,GAN 的进步显得相对保守。在扩散模型中,现代计算机视觉技术(如多头自注意力 [87])和骨干网络(如预激活 ResNet [17]、U-Net [63] 和视觉 Transformer [ViTs; 9])已成为常态。鉴于骨干网络过时,人们广泛认为 GAN 在诸如 Frechet Inception Distance(FID)[19] 等定量指标方面缺乏扩展性,这并不令人意外。
我们重新审视了这种情况:通过将目标函数的进展结合为正则化的训练损失,我们展示了 GAN 在训练稳定性方面的提升,这使得我们能够将 GAN 升级为现代骨干网络。首先,我们提出了一种新颖的目标函数,它将相对配对(relativistic pairing) GAN 损失(RpGAN; [22])与零中心梯度惩罚 [52, 64] 相结合,从而提高了稳定性 [14, 64, 52]。我们从数学上证明了带梯度惩罚的 RpGAN 享有与正则化经典 GAN 相同的局部收敛保证,并且移除我们的正则化方案会导致非收敛。
一旦我们有了一个行为良好的损失函数,就不再需要任何 GAN 技巧 [28, 31],我们可以自由地设计一个现代化的最先进骨干架构。我们剥离了 StyleGAN 的所有特性,识别出那些本质特性,然后从现代卷积网络和 Transformer[48, 97] 中借鉴了新的架构设计。简言之,我们发现,适当的 ResNet 设计 [17, 67]、初始化 [99]、重新采样 [29, 31, 32, 100],以及分组卷积 [95, 5] 和无归一化 [31, 34, 14, 88, 4] 是重要的。这导致了一个比 StyleGAN 更简单的设计,并在相同网络容量下提升了 FID 性能(在 FFHQ-256 上的得分为 2.75,相比 StyleGAN 的 3.78)。
总之,我们的工作首先通过改进的正则化损失从数学上论证了 GAN 训练不必复杂。然后,我们实验证明了一个无需任何技巧的简单 GAN 基线,其 FID 表现优于 StyleGAN [29, 31, 32],其他最先进 GAN [3, 42, 94],以及扩散模型 [20, 78, 86],在 FFHQ、ImageNet、CIFAR 和 Stacked MNIST 数据集上的性能均表现优异。
2. 服务两个目标:通过 RpGAN + R1 + R2 实现稳定性与多样性
在定义 GAN 目标时,我们需要解决两个挑战:稳定性和多样性。一些先前的工作致力于解决稳定性问题 [29, 31, 32],另一些工作则专注于模式崩溃 [22]。为了在这两方面取得进展,我们将一种稳定的方法与一种基于理论的简单正则化器相结合。
2.1 传统 GAN
传统 GAN [13, 57] 被定义为鉴别器(或判别器)D_ψ 和生成器 G_θ 之间的一个 minmax 博弈。对于真实数据 x∼p_D 和由 G_θ 生成的伪数据 x∼p_θ,GAN 的最通用形式为:
其中,G 尝试最小化 L,而 D 尝试最大化它。函数 f 的选择是灵活的 [50, 44]。特别地,令
可以还原为 Goodfellow 等人提出的经典 GAN [13]。在本文中,这将是我们选择的 f [57]。
已有研究表明,当直接优化 p_θ 时,式 (1) 具有凸性 [13, 81]。然而,在实际实现中,经验 GAN 损失通常将伪样本推到判别器 D 设定的决策边界之外,而不是直接更新密度函数 p_θ。这种偏离导致了一个显著更具挑战性的问题,即易受两种常见失败场景的影响:模式崩溃/丢失 和 非收敛。
【尽管模式崩溃和模式丢失在技术上是不同的问题,但在此上下文中,它们可以互换使用,用于描述生成器概率分布的支持集 supp(p_θ) 未全面覆盖真实数据分布的支持集 supp(p_D) 的常见问题。
模式崩溃 是指生成器仅生成有限多样性的样本(即,对整个分布只生成一张图像)。
模式丢失 是指生成器未能表示数据分布中的某些模式(忽略了训练分布中的整个子集)。】
2.2 相对 f-GAN
我们采用一种略有不同的 minmax 博弈,称为相对配对(relativistic pairing) GAN(RpGAN),由 Jolicoeur-Martineau 等人提出 [22],以解决模式丢失问题。通用的 RpGAN 定义为:
虽然式 (2) 与式 (1) 仅有细微差别,但评估这种判别器差异对 L 的优化景观(landscape)有着根本影响。由于式 (1) 仅要求 D 区分真实数据和伪数据,在所有真实和伪数据能够被单一决策边界分开的情况下,经验 GAN损失会鼓励 G 简单地将所有伪样本移动到该单一边界稍远处——这种退化解即我们观察到的模式崩溃/丢失。
Sun 等人 [81] 将这种退化解描述为 L 景观中 坏的局部极小值,并指出式 (1) 存在指数多的 坏局部极小值。问题的根源在于,当真实和伪数据被独立考虑时,自然会产生一个单一决策边界。
RpGAN 通过将真实数据和伪数据进行耦合引入了一种简单的解决方案,即伪样本的真实性是相对于真实样本来评判的。这样,在每个真实样本的邻域内维持一个决策边界,从而避免了模式丢失。
Sun 等人 [81] 表明,式 (2) 的景观中不存在与模式丢失解对应的局部极小值,并且每个谷地都是全局最小值。
2.3 RpGAN的训练动态
尽管 RpGAN 的优化景观结果 [81] 允许我们解决模式丢失的问题,但其训练动态尚未被充分研究。式 (2) 的最终目标是找到一个平衡点 (θ*,ψ*),使得 p_θ* = p_D 且 D_ψ* 在 p_D 上处处为常数。
Sun 等人 [81] 证明,在合理假设下,沿着式 (2) 的景观中一条非递增轨迹,可以全局到达 θ*。然而,这样一条轨迹的存在并不一定意味着梯度下降法能够找到它。Jolicoeur-Martineau 等人通过实验表明,未正则化的 RpGAN 表现不佳 [22]。
命题 I(非正式):未正则化的 RpGAN 在使用梯度下降时并不总是收敛。
我们在附录 B 中通过证明验证了这一命题。我们从分析上表明,对于某些类型的 p_D(例如接近于一个 delta 分布的分布),RpGAN 不会收敛。因此,进一步的正则化是必需的,以补充一个良好行为损失的缺失部分。
零中心梯度惩罚。为了应对 RpGAN 的不收敛问题,我们探索了梯度惩罚作为解决方案,因为已有证明表明零中心梯度惩罚(zero-centered gradient penalties,0-GP)可以促进经典 GAN 的收敛训练 [52]。两种最常用的 0-GP 方法是 R1 和 R2:
R1 惩罚了判别器在真实数据上的梯度范数,而 R2 惩罚了判别器在伪数据上的梯度范数。
到目前为止,对 GAN 训练动态的分析主要集中在局部收敛性 [55, 51, 52] 上,即当 (θ,ψ) 位于(θ*,ψ*) 的邻域内时,训练是否至少能够收敛。在这种情况下,可以通过分析梯度向量场
的雅可比矩阵的谱,在(θ*,ψ*) 处的行为来研究收敛性 [55, 51, 52]。
关键见解在于,当 G 已经生成了真实分布时,我们希望 ∇_x D = 0,以便 G 不会偏离其最优状态,从而避免训练振荡。当 p_θ = p_D 时,R1 和 R2 强加了这样的约束。这也解释了为什么早期的梯度惩罚方法(例如 WGAN-GP [14] 中的 1 中心梯度惩罚(1-GP))未能实现收敛训练 [52],因为它们仍然鼓励 D 在 G 达到最优状态时具有非零斜率。
鉴于相同的见解也适用于 RpGAN,我们扩展了之前的分析并证明:
命题 II(非正式):在与 Mescheder 等人 [52] 类似的假设下,带 R1 或 R2 正则化的 RpGAN 在局部收敛。
在附录 C 中,我们的证明同样分析了在 (θ*,ψ*) 处正则化 RpGAN 梯度向量场雅可比矩阵的特征值。我们证明了所有特征值的实部均为负;因此,对于足够小的学习率,正则化 RpGAN 在 (θ*,ψ*) 的邻域内是收敛的 [52]。
讨论。另一项研究 [64] 将 R1 和 R2 与实例噪声 [75] 联系起来,作为其实验分析的近似。Roth 等人 [64] 表明,对于 Goodfellow 等人提出的经典 GAN [13],
- R1 近似于将 p_D 与密度函数 N(0,γ·I) 卷积,外加额外的加权和拉普拉斯误差项。
- R2 近似于将 p_θ 与 N(0,γ·I) 卷积,具有类似的误差项。
- 当 D_ψ 接近 D_ψ* 时,R1 和 R2 的拉普拉斯误差项会相互抵消。
我们没有将 Roth 等人 [64] 的证明扩展到 RpGAN;然而,这一方法可能为我们的工作提供补充见解,而我们的工作遵循的是 Mescheder 等人 [52] 的策略。
2.4 实用演示
我们在 StackedMNIST 数据集 [46] 上实验,验证我们损失函数的良好性质。StackedMNIST 包含 1000 个均匀分布的模式(modes)。生成器(G)和判别器(D)网络均为小型 ResNet 架构 [17],且 不使用任何归一化层 [21, 91, 1, 85]。
通过使用一个预训练的 MNIST 分类器,我们可以明确测量生成器生成的数据分布(p_θ)恢复真实数据分布(p_D)中有多少模式。此外,我们可以通过以下方法估计伪样本与真实样本之间的反向(reverse) KL 散度:D_KL (p_θ || p_D)。具体方法是比较生成数据的分类分布(p_θ 的类别分布)与真实的均匀分布之间的 KL 散度。
传统 GAN 和 RpGAN 的对比实验:
-
传统 GAN(使用 R1 正则化):按照 Mescheder 等人[52] 和 StyleGAN 系列 [29, 31, 32] 的做法,传统 GAN 使用 R1 正则化后,训练仍快速发散(图 1)。
-
RpGAN(仅用 R1 正则化):理论上,R1 正则化足以实现局部收敛,但实验表明,即便 RpGAN 仅使用 R1 正则化,也会快速发散。
在以上两种情况下,当训练发散时,判别器对伪样本的梯度会出现 “爆炸”。
当同时应用 R1 和 R2 正则化时,训练变得稳定(表 1):
- 传统 GAN 在稳定的条件下仍然表现出 模式丢失(mode dropping)。
- RpGAN 则实现了完整的模式覆盖(full mode coverage),并显著降低了 D_KL 值(从 0.9270 降至 0.0781)。
作为对比,StyleGAN [29, 31, 30, 32] 使用 “小批次标准差技巧(minibatch standard deviation trick)” 来减少模式丢失。这种方法在 StackedMNIST 上的模式覆盖从 857 提高到 881,但对 D_KL 几乎没有改进[28]。
实验表明,仅使用 R1 正则化不足以实现全局收敛训练。
- 理论分析难以解释这一现象,但实验提供了一些见解:在训练早期,(θ,ψ) 很可能距离 (θ*,ψ*) 较远。
- 如果判别器的能力较强,仅对真实数据进行正则化(R1)对伪数据的行为影响甚微,这可能导致训练失败,因为判别器对伪数据的梯度表现不佳。
同时使用 R1 和 R2 的优势:
-
平滑性增强:根据 Roth 等人 [64] 的分析,同时应用 R1 和 R2 正则化会平滑 p_D 和 p_θ,从而使学习变得更容易,而仅平滑 p_D 不足以达到这一效果。
-
均衡梯度范数:实验发现,当同时使用 R1 和 R2 时,即使在训练早期,判别器在真实数据和伪数据上的梯度范数趋于相等。
-
判别器行为改善:Jolicoeur-Martineau 等人 [23] 指出,当 R1 和 R2 共同作用时,判别器会成为最大边界分类器(maximum margin classifier),而单独使用其中一个正则化项时,这种效果无法实现。Fang 等人 [10] 观察到,当判别器对真实数据和伪数据的梯度范数差距加大时,判别器容易出现过拟合。联合使用 R1 和 R2 能够有效抑制这种情况。
3. 通往新基准的路线图——R3GAN
在整合了 RpGAN + R1 + R2 损失的稳定性和多样性优势后,我们设计了一个极简主义的基准模型,称为 R3GAN。这一模型将结合近期在网络骨干设计方面的进展 [48, 97]。
(2020,StyleGAN2)分析和提高 StyleGAN 的图像质量
我们从 StyleGAN2 基准模型 [30](即配置 A)开始,该模型的特性包括:
- 生成器(G)基于 VGG 风格的网络 [73]。
- 判别器(D)为 ResNet 架构。
- 一些支持风格生成的技术。
- 以及若干 “补丁式” 技巧,弥补骨干网络的不足。
按以下几个步骤移除这些非必要特性后,我们构建了新的基准模型。
- 移除 StyleGAN2 中的所有非核心特性(配置 B)。
- 应用 RpGAN + R1 + R2 损失函数(配置 C)。
- 逐步升级网络骨干(配置 D 和 E)。
所有配置均在 FFHQ 256×256 数据集 [29] 上进行评估,且生成器和判别器的网络容量保持一致,均包含约 2500 万可训练参数。每种配置训练到判别器处理 500 万张真实图像时停止。除非另行说明,训练超参数(如优化器设置、批大小、EMA 衰减长度)均沿用配置 A 的设置。我们对最终模型调整了训练超参数,并在第 4 节中展示了收敛结果。
3.1 最小基线(配置 B)
我们移除了 StyleGAN2 的所有非核心特性,只保留其基础网络骨干和基本图像生成能力。这些特性分为三类:
1)基于风格的生成:
- 映射网络(mapping network)[29]。
- 风格注入(style injection)[29]。
- 权重调制/解调(weight modulation/demodulation)[31]。
- 噪声注入(noise injection)[29]。
2)图像操作增强:
- 混合正则化(mixing regularization)[29]。
- 路径长度正则化(path length regularization)[31]。
3)训练技巧:
- z 向量归一化(z normalization) [28]。
- 小批次标准差(minibatch stddev) [28]。
- 均衡学习率(equalized learning rate) [28]。
- 懒惰正则化(lazy regularization)[31]。
根据文献 [69, 70] 的建议,我们将 z 的维度降低至 64。由于不再使用均衡学习率机制,学习率从 2.5×10^{−3} 减少到 5×10^{−5}。尽管其 FID 分数(12.46)高于配置 A,这一简化的基准模型仍然生成了合理的样本质量,并实现了稳定的训练。
这一极简模型与早期的图像生成模型 DCGAN [60] 的主要区别包括:
- a) 收敛的训练目标:结合 R1 正则化。
- b) 小学习率:避免使用动量优化器(Adam β1=0)。
- c) 无归一化层:生成器和判别器中均未使用归一化层。
- d) 适当的重采样:采用双线性插值代替跨步(转置)卷积。
- e) 激活函数:生成器和判别器均采用 Leaky ReLU,且生成器输出层未使用 tanh。
- f) 生成器架构:固定的 4×4 常量输入;生成器中引入了输出跳跃连接(output skips);判别器为 ResNet 结构。
StyleGAN 的实验发现。违反 a)、b) 或 c) 通常会导致训练失败。
- Gidel 等人 [11] 显示,负动量可以改善 GAN 的训练动态。然而,由于最佳负动量是另一个具有挑战性的超参数,我们不使用任何动量以避免恶化 GAN 的训练动态。
- 研究表明,归一化层会对生成模型产生负面影响 [31, 34]。批量归一化(Batch normalization) [21] 通常会因为跨多个样本的依赖性而削弱训练,并且与假设独立处理每个样本的 R1、R2 或 RpGAN 不兼容。较弱的数据无关(data-independent)归一化方法 [31, 34] 可能有所帮助;我们将其留待未来研究。早期的 GAN 即使违反了 a) 和 c),也可能由于式 (1) 的全秩解 [52] 而成功。
违反 d) 或 e) 不会显著影响训练的稳定性,但会对样本质量产生负面影响。
- 不合适的转置卷积可能导致棋盘效应(checkerboard artifacts),即使使用子像素卷积 [72] 或精心调整的转置卷积也无法解决,除非应用低通滤波器。插值方法可以避免此问题,方法从最近邻插值 [28] 到 Kaiser 滤波器 [32] 各不相同。为了简化处理,我们使用双线性插值。
- 关于激活函数,(leaky) ReLU 的平滑近似,例如 Swish [61]、GELU [18] 和 SMU [2],会恶化 FID 值。PReLU [15] 略微改善 FID,但会增加显存使用量,因此我们使用 leaky ReLU。
所有后续配置都遵守 a) 至 e)。违反 f) 是可以接受的,因为它与 StyleGAN2 [31] 的网络骨干有关,并在配置 D 和 E 中进行了现代化调整。
3.2 表现良好的损失函数 (配置 C)
我们使用了第 2 节中提出的损失函数,这将 FID 降至 11.65。我们假设 Config B 中的网络骨干是限制因素。
3.3 通用网络现代化 (配置 D)
首先,我们将 1-3-1 bottleneck ResNet 架构 [16, 17] 应用于生成器 (G) 和判别器 (D)。这是所有现代视觉骨干的直接祖先 [48, 97]。
我们还结合了配置 B 中发现的原则以及 ConvNeXt [48] 的各种现代化努力。我们将 ConvNeXt 的发展路线图分类如下:
i. 始终有益:
- i.1) 增加深度卷积(depthwise convolution)的宽度,
- i.2) 倒置的瓶颈结构(inverted bottleneck),
- i.3) 减少激活函数,
- i.4) 独立的重采样层。
ii. 性能提升微乎其微:
- ii.1) 使用较少通道的深度大核卷积(large kernel depthwise convolution),
- ii.2) 用 GELU 替换 ReLU,
- ii.3) 减少归一化层,
- ii.4) 用层归一化替换批量归一化。
iii. 与我们的设置无关:
- iii.1) 改进的训练配方,
- iii.2) 阶段比例,
- iii.3) 补丁化的主干(patchify stem)。
我们计划将 i) 应用于我们的模型,尤其是经典 ResNet 的 i.3) 和 i.4),同时将 i.1) 和 i.2) 保留给配置 E。ii) 的许多方面仅仅是为了模仿视觉 Transformer [47, 9],而没有带来显著的改进 [48]。由于我们根据原则 c) 避免归一化层,ii.3) 和 ii.4) 不适用。此外,ii.2) 与我们发现的 GELU 会恶化 GAN 性能的结论相矛盾,因此我们按照原则 e) 使用 leaky ReLU。
Liu 等人强调使用大卷积核 (ii.1) [48],但这相比于更宽的 3×3 卷积层表现稍差,因此我们不采用该 ConvNeXt 的设计选择。
3.4 神经网络架构细节
基于 i.3)、i.4) 以及原则 c)、d) 和 e),我们可以用现代化的 ResNet 替代 StyleGAN2 的骨干。我们为 G 和 D 使用完全对称的设计,每个模块包含 2500 万个参数,与 Config A 相当。
该架构极简:每个分辨率阶段有一个过渡层和两个残差块。过渡层由双线性重采样和一个可选的 1×1 卷积组成,用于更改空间大小和特征图通道。残差块包括五个操作:Conv1×1 → Leaky ReLU → Conv3×3 → Leaky ReLU → Conv1×1,最后的 Conv1×1 不包含偏置项。
对于 4×4 的分辨率阶段,过渡层被 G 的基础层和 D 的分类头取代。基础层类似于 StyleGAN [29, 31],使用通过线性层由 z 调制的 4×4 可学习特征图。分类头使用全局 4×4 深度卷积来移除空间范围,然后通过线性层生成 D 的输出。我们保持每个分辨率阶段的宽度比例与 Config A 一致,由于高效的 1×1 卷积,stem 的宽度是其 3 倍。残差块中的 3×3 卷积压缩比为 4 [16, 17],使得瓶颈宽度是 Config A 的 0.75 倍。
由于缺乏归一化可能导致方差爆炸,我们采用 fix-up 初始化 [99]:对每个残差块中的最后一个卷积层进行零初始化,并将块中其他两个卷积层的初始化缩减为 L^{−0.25},其中 L 是残差块的数量。我们避免使用其他 fix-up 技巧,例如过多的偏置项和可学习的倍增器。
3.5 瓶颈现代化(Bottleneck modernization) (配置 E)
确定总体架构后,我们研究如何对残差块进行现代化改造,具体为 i.1) 和 i.2)。首先,我们探索 i.1) 并将残差块中的 3×3 卷积替换为分组卷积。我们将分组大小设置为 16,而不是 1(即 ConvNeXt 中的深度卷积),因为深度卷积在 GPU 上效率很低,与使用更大分组大小相比速度并无明显提升。通过分组卷积,我们可以在模型大小不变的情况下将瓶颈压缩比降低到 2,从而使瓶颈宽度扩大为 Config A 的 1.5 倍。
最终,我们发现分组卷积的计算成本与 1×1 卷积相比可以忽略不计,因此我们寻求增强分组卷积的能力。我们应用 i.2),倒置瓶颈宽度和 stem 宽度,从而在不增加模型大小的情况下使分组卷积的宽度加倍。
图 2:架构对比。对于图像生成,生成器 (G) 和判别器 (D) 通常都是深度卷积网络 (ConvNet),其架构可能是部分对称或完全对称的。
- (a) StyleGAN2 [31] 的生成器 G 使用一个网络将噪声向量 z 映射到一个中间样式空间 W。我们使用传统生成器,因为对于一个最简可用的模型来说,样式映射并非必要。
- (b) StyleGAN2 的构建模块具有复杂的层次,但其本身结构简单,基于 2015 年的 ConvNet 架构 [38, 73, 16]。在判别器中,ResNet 的恒等映射原则也被违反。
- (c) 我们移除了复杂技巧,并对架构进行了现代化改造。我们的设计采用了更简洁的层次,并使用了更强大的 ConvNet 架构。
4. 实验
5. 讨论与局限性
我们展示了通过简化 GAN,可以在图像生成任务中实现更加稳定的 RpGAN + R1 + R2 目标函数。该目标函数具有数学上证明的收敛性,同时仍然能够提供多样化的输出。这种稳定性使我们能够在无需以往方法复杂技巧的情况下重新设计现代网络架构,从而构建了 R3GAN 模型,并在 Stacked-MNIST、FFHQ、CIFAR-10 和 ImageNet 等常见数据集上获得了具有竞争力的 FID,作为数学优势的实证证明。
我们工作的重点是阐明图像生成所需的最小 GAN 的核心组成部分。因此,我们优先考虑简洁性而非功能性——我们并未声称在每个数据集或任务上超越现有模型的性能;我们仅提供一个新颖的简单基准,该基准易于收敛。虽然这使得我们的模型可能成为未来 GAN 的骨干,但也意味着我们的模型不适合直接应用于下游任务,例如图像编辑或可控生成,因为我们的模型缺乏专门设计的特性来实现简单的图像反演(image inversion)或解耦的图像合成。例如,我们移除了 StyleGAN 中的样式注入功能,尽管这一功能显然具有应用价值。此外,我们也省略了之前文献中显示能显著提高 FID 的一些常见技术,例如通过潜在编码调制的某种形式的自适应归一化 [7, 33, 29, 98, 58, 89, 66],以及在低分辨率阶段使用多头自注意力机制 [7, 33, 34]。我们计划在未来的研究中探索这些技术。
此外,我们的工作在 R3GAN 模型的可扩展性评估方面也存在局限性。虽然在 64×64 ImageNet 上表现出有前景的结果,但我们尚未验证其在更高分辨率的 ImageNet 数据或大规模文本到图像生成任务 [12] 上的可扩展性。
最后,作为一种能够提高生成模型质量的方法,我们必须提到,生成模型——尤其是人物生成模型——可能会导致直接伤害(例如,通过个性化深度伪造)以及通过虚假信息传播(例如,虚假网红)对社会造成的危害。
6. 结论
本研究介绍了 R3GAN,这是一种新的基准 GAN,具有更高的稳定性,利用了现代架构,并且不需要现有 GAN 模型中常见的临时技巧。我们方法的核心是一个正则化的相对损失函数,该函数在数学上证明具有局部收敛性,并提高了 GAN 训练的稳定性。这种稳定的损失使我们能够省略以往 GAN 所需的各种技巧,并引入现代深度架构。最终得到的精简基准在同参数规模范围内达到了与当前最先进 (SOTA) 模型相当的性能。我们预计,该骨干将有助于推动未来的 GAN 研究。
论文地址:https://arxiv.org/abs/2501.05441
项目页面:https://github.com/brownvc/R3GAN
OpenReview:https://openreview.net/forum?id=OrtN9hPP7V
Huggingface:https://huggingface.co/papers/2501.05441
进 Q 交流群:922230617