FreGAN: Exploiting Frequency Components for Training GANs under Limited Data
公众号:EDPJ
目录
3.3 跳频连接(Frequency Skip Connection,FSC)
3.4 高频对齐(High-Frequency Alignment,HFA)
4.3 兼容性与 GAN 平衡(equilibrium)分析
0. 摘要
在有限数据下训练 GAN 通常会导致判别器过度拟合和记忆问题,从而导致训练发散。 现有方法通过使用数据扩充、模型正则化或注意力机制来减轻过度拟合。 然而,他们忽略了 GAN 的频率偏差,对频率信息尤其是包含丰富细节的高频信号考虑得很少。 为了充分利用有限数据的频率信息,本文提出了FreGAN,提高了模型的频率感知能力,更加关注高频信号的产生,有利于高质量的生成。 除了利用真实图像和生成图像的频率信息外,我们还将真实图像的频率信号作为自监督约束,这减轻了 GAN 的不平衡并鼓励生成器合成足够的而不是任意的频率信号。 广泛的结果证明了我们的 FreGAN 在改善低数据条件下的生成质量方面的优越性和有效性(尤其是当训练数据少于 100 时)。 此外,FreGAN 可以无缝应用于现有的正则化和注意机制模型,以进一步提升性能。
1. 简介
在有限数据下训练 GAN 通常会导致过度拟合和不稳定问题。 具体来说,当鉴别器 (D) 对有限的训练数据过度拟合时,它只会记住输入的真实图像并将其他图像分类为假图像,从而向生成器 (G) 提供无意义的反馈,从而导致训练发散和生成质量差。 在有限数据下改善合成质量仍然是一个未探索的问题。 最近解决这个问题的方法包括用不同的数据增强来扩大训练集,用附加约束正则化 D 的输出,以及设计新的网络架构。然而,现有的方法主要是从数据规模和模型容量的角度出发,而忽略了数据本身的一个关键属性,即频率信号。 GAN 已被证明在拟合频率信号时具有频谱偏差。 它们优先拟合低频信号并倾向于忽略高频信号(编码垂直和水平边缘等精细细节)。 缺少它们可能会导致不切实际的图像合成和不令人满意的伪影(见图 1)。 本文提出了一种称为 FreGAN 的频率感知模型,以提高 G 和 D 的频率感知能力。通过鼓励 G 生成更合理和足够的高频信号,我们的 FreGAN 在有限数据下改善了合成质量,如 图 1 所示 。
为了充分利用有限训练数据的频率信息,我们首先通过 Haar 小波变换(wavelet transformation)将图像分解为不同的频率分量。与在图像级别使用的传统小波变换不同,我们对 D 和 G 的中间特征执行它。然后我们使用高频鉴别器 (high-frequency discriminator,HFD) 和频率跳跃连接 (frequency skip connection,FSC) 来分别提高 G 和 D 的频率感知。 然而,G 仍然不知道它应该合成哪些高频信号,并且 D 在看到真假图像后做出真/假决定时过于自信。 这种不平衡的竞争促使我们执行高频对齐 (high-frequency alignment,HFA) 以缓解 G 和 D 之间的信息不对称。创新地,我们明确地利用从 D 诱导的真实图像的频率信号作为自我监督约束来指导 G 正确利用频率知识。 此外,将 HFD 和 HFA 应用于多尺度特征,彻底挖掘有限数据的频率信号,减少频率偏差和高频信息丢失。
2. 相关工作
在有限数据下训练 GAN。 在有限数据下提高合成质量仍然是一个未被充分探索的问题,最近引起了广泛关注。 训练数据不足会导致鉴别器过度拟合,从而降低生成图像的质量。
- 解决这种数据稀缺的一种直接方法是通过各种增强来扩展训练集。
- 除了采用传统的增强技术(例如,翻转、裁剪)之外,ADA 和 DiffAug 分别提出了自适应和可微增强来扩大训练数据。
- APA 基于自适应伪增强的过度拟合程度来欺骗 D。
- InsGen 将实例判别作为一项辅助任务,以鼓励 D 区分每个单独的图像,从而提高判别器的判别能力。
- Lecam 在整个训练过程中对鉴别器的输出进行正则化。
- FastGAN 采用跳过层通道激励模块(skip-layer channel-wise excitation module)和自监督鉴别器来稳定和加速训练。
- 最近的 MoCA 使用带有注意机制的原型记忆提高了 few-shot 图像生成质量。
- 受益于大规模预训练视觉识别模型的重大进展,Vision-aided GAN 使用可用的现成模型来帮助 GAN 训练,ProjectedGAN 通过将生成的图像和真实图像投影到预训练特征空间来改进 GAN。
- 另一类方法从在大规模数据上预训练的模型中迁移和重用知识,即 few-shot GAN 自适应。
GAN 中的小波变换(Wavelet Transformation)。Schwarz 等人证明 GAN 表现出频率偏差,并且解决频率伪影对于逼真的图像生成是必要的。 因此,GAN 往往会忽略难以生成的高频信号,从而影响生成质量。小波变换将图像分解为具有不同频带的频率分量,已广泛用于 GAN 的各种应用,例如风格转换、图像修复、图像编辑等。
- HiFA 通过直接将高频分量馈入生成器来减轻生成器产生高频信号的压力。
- WaveFill 解耦不同的频率信号并明确填充每个频带中的缺失区域,从而实现卓越的图像修复。
- Zhang 等人提出小波知识蒸馏,以在不降低性能的情况下实现高效的图像到图像转换。
- SWAGAN 将小波与 StyleGAN2 的分层训练相结合,并在图像级别执行小波。
我们的 FreGAN 更加灵活,通过直接将生成器和鉴别器的中间特征分解到小波域中,并且不需要像 SWAGAN 那样将图像转换为更高/更低分辨率的额外下/上采样,这使我们的方法更加高效。
与在大量数据上执行的现有方法不同,本文解决了更具挑战性的 few-shot 生成问题。 除了提高模型的频率意识外,我们还通过缩小 G 和 D 之间的频率差距来缓解不健康的竞争。
3. 方法
我们的 FreGAN 的总体框架如图 2 所示。为了制定我们的方法,我们明确地利用小波变换将特征分解为不同的频率分量。 然后,我们使用高频鉴别器 (HFD) 和跳频连接 (FSC) 分别提高 D 和 G 的频率意识。 此外,我们执行高频对齐 (HFA) 以进一步引导 G 合成合理的频率信号。
3.1 小波变换
为了将图像分解成不同的频率分量,我们采用了一种简单但有效的小波变换,即 Haar 小波。 Haar小波由两个镜像操作组成:小波池化和小波反池化。 前者将图像转换到 hlwavelet 域,后者将频率分量逆重构到空间域。小波池化操作有四个核:
L 和 H 分别表示低通和高通滤波器。 低通 (L) 滤波器捕捉图像的轮廓和表面,而高通 (H) 滤波器专注于边缘和精致纹理等细节信息。
图 3 说明了通过 Haar 小波获得的给定图像的频率分量。 我们可以观察到,低频分量 LL 包含图像的整体表面,而被高通滤波器分解的分量,即 LH、HL、HH,包含更精细的细节。 进一步,通过将三个高频分量相加,我们近似地获得了图像的所有细节信息,例如猫的眼睛。
3.2 高频鉴频器
为了提高 D 的频率意识,我们设计了高频鉴别器 (HFD)。 HFD 负责从频域的角度区分真实图像和生成图像。 形式上,对于鉴别器中的第 i 层,我们对中间特征采用小波池化并得到
然后我们通过张量加法组合三个高频分量,即
其中包含足够的特征细节。 通过在原始鉴别器之后应用传统的卷积和下采样操作,我们将 HFD 的对抗性损失定义为:
其中 HF_real 和 HF_fake 分别是真实图像和假图像的高频信息。 DH 是高频鉴频器。 由于随着网络的加深,D 可能会避开高频信息,因此我们在鉴别器的多层上执行多尺度 HFD。 多尺度运算保证了有限数据中频率信息的充分挖掘和利用,进一步提高了 D 的频率感知能力。 值得注意的是,在 HFD 和等式 2 的指导下,G 也经过优化,产生丰富的高频细节。
3.3 跳频连接(Frequency Skip Connection,FSC)
在使用 HFD 后,生成器能够产生合理的频率信号(见表 5)。 然而,由于 GAN 从低频到高频拟合频率信号,随着网络的加深,高频信号可能会被忽略。 为了防止高频信息的丢失并进一步鼓励生成器产生丰富的细节,我们提出了频率跳跃连接(FSC)。 具体来说,对 G 的第 i 层特征进行小波变换得到频率分量
对于这些分量,我们利用小波反池化(unpooling),从而将高频表示(representation)重构为原始特征。 然后我们明确地将重建的频率表示提供给 G 的下一层。形式上,
其中 F_i 表示第 i 层的特征,Unpooling 是小波反池化操作。 F'_(i+1) 是FSC后得到的特征,将被送入后续层进行进一步运算。 这种跳过连接防止高频信息丢失并保持高频细节。
3.4 高频对齐(High-Frequency Alignment,HFA)
添加 HFD 和 FSC 显式提高了 G 的频率感知能力,但 G 只能合成任意频率信号。 G 如何利用频率信号仍然不明确,而 D 仍然在竞争中占据主导地位,因为它从真实图像和生成的图像中学习了判别知识。 为了平衡 G 和 D 之间的恶性竞争,我们提出了高频对齐 (HFA),它涉及从 D 诱导的真实图像的高频信号作为正则化器来引导 G,促进 G 合成更合理和逼真的精细细节。 具体来说,我们提取 G 在不同层的中间特征的频率表示。 对于 G 的第 i 层,我们获得频率分量
我们忽略第一个低频分量并组合后三个高频分量,即
然后我们使用鉴别器高频分量 HF_D 作为自监督约束。 除了骗过 D 之外,G 还要最小化生成图像和真实图像之间高频信息的距离。 对齐损失定义为:
其中,||*||_1 表示 L1 范数。 这种对齐鼓励 G 合成接近真实频率信号的频率信号,从而减轻不健康的竞争并提高生成质量。 为了充分利用来自 D 的真实图像的频率信号,我们对多尺度特征(如 HFD)执行 HFA,如图 2 所示。 4.2 节论证在多尺度特征上采用 HFA 和 HFD 的合理性和有效性。
3.5 优化
我们采用对抗性损失的铰链(hinge)版本来训练我们的模型。
我们还使用重建损失来鼓励鉴别器提取更具代表性的特征。
其中,f 是 D 的中间特征,G 和 T 表示对特征 f 和输入图像 x 的处理。 总之,我们的判别器和生成器分别通过以下方式优化,每个损失的系数设置为1。
4. 实验
4.1 主要结果
对数据量有限的数据集进行定量比较。 我们的 FreGAN 和基线方法在不同分辨率下的定量比较结果在表 1、表 2、表 3 中给出。我们保存每种方法的最佳训练快照并生成 5k 图像来计算 FID 和 KID。 采用整个训练集作为参考分布。
- 我们可以从结果中观察到,在具有不同分辨率和数据量的各种数据集上进行了评估,FreGAN 在所有这些数据集上都实现了卓越的性能。
- 我们的 FreGAN 在 15 个数据集中的 14 个上持续改进了 FID 和 KID 指标,证明了我们提出的技术的有效性和普遍性。
- 值得注意的是,对于数据极其有限(少于 100)的数据集,即 Flat(表 2)、贝壳(Shells)和头骨(Skulls)(表 3),我们的方法显着地提高了性能,例如,在 Flat 上 FID 从 216.27 提高到 178.10,在 Skulls 上从 101.94 到 86.12,相应的 KID 提高了一倍,进一步反映了我们的模型在极其有限的数据下训练 GANs 的潜力。更多定量结果见附录。
定性比较。 FastGAN 和我们的 FreGAN 在各种数据集上的定性结果如图 4 所示。对于图 4 中的每个数据集,从左到右是生成的图像、生成图像的低频和高频分量的可视化。
- FastGAN 生成的图像包含不令人满意的伪影,其中一些是不协调的,例如图 4 右下角生成的猫和狗图像,猫的头部周围有伪影,狗的耳朵扭曲。
- 我们的 FreGAN 在协调性、合理性和精细细节方面显着提高了图像质量。 从图4可以看出,我们的 FreGAN 生成的人脸更逼真,动漫脸的眼睛颜色、毛发质地等细节更逼真,猫狗合成的动物脸更真实也更合理。
- 此外,我们的 FreGAN 生成的图像的频率分量包含更丰富的细节。 例如生成的 AnimalFace-Cat 图像背景更丰富,生成的 Skulls 图像有更清晰的眼鼻轮廓。 这种观察反映出所提出的 FreGAN:1)在有限数据下改善了生成图像的质量; 2) 提高合成高频信号的频率感知,图像细节更丰富; 3)充分利用有限数据的频率信息。 附录中给出了更多定性结果。
具有更多数据的数据集下的有效性。为了更全面地研究我们的 FreGAN 的有效性,我们评估了具有更多训练数据的数据集的性能,即 AnimalFace-HQ (AFHQ),其中包括 3 个具有接近 5k 图像的子数据集,结果显示在表 4。同样,当使用更多数据进行训练时,我们的方法对 FID 和 KID 指标都产生了令人信服的改进。 结合图 4 中生成的图像,结果进一步验证了我们的 FreGAN 对合成质量的贡献。我们的方法提高了不同数据量下的性能,表明我们模型的泛化能力。
4.2 消融研究
FreGAN 变体的消融研究。 我们的 FreGAN 包含三个组成部分,即高频鉴别器 (HFD)、高频对齐 (HFA) 和跳频连接 (FSC)。 我们通过从 FreGAN 的完整版本中删除每个组件来评估每个组件的功效。 我们从每个不同分辨率的数据集中选择一个,即 100-shot-OXXma、Anime face 和 pokemon,分别用于 256、512 和 1024 分辨率。 如表 5 所示,移除三种技术中的任何一种都会导致性能下降,反映出每个组件的贡献。 尽管如此,所有这些变体在 FID 和 KID 上都优于基线 FastGAN,这意味着我们方法的不同组件的组合始终如一地提高了模型性能。 而且,去除HFD模块时性能下降最多,这是合理的,因为 HFD 提高了 G 和 D 的频率感知,D 的频率感知作为自我监督,指导 G 合成足够合理的频率信号 . 附录中给出了消融研究的定性比较结果。
不同尺度特征的消融研究。 我们将我们提出的 HFD 和 HFA 应用于 G 和 D 的多尺度特征,即 8、16 和 32 尺度特征。 在这里,我们在表 6 中提供了不同尺度的消融研究。可以看出,对多尺度特征执行 HFD 和 HFA 可以提高模型性能。 此外,当仅对单尺度特征执行 HFD 和 HFA 时,获得的结果仍然优于 FastGAN 基线,表明 HFA 和 HFD 的有效性。 值得注意的是,尽管添加更多尺度的特征可能会带来进一步的性能提升,但对于更高尺度的特征(例如 128、256),所需的额外卷积和下采样层会增加,从而带来不可忽略的计算成本。
不同频率分量的消融研究。 对特征进行小波变换得到三个高频分量,即 LH、HL 和 HH。 如图 3 所示,它们中的每一个都对特征的不同细节进行编码,我们将它们相加以融合所有细节信息,以便在我们的主要实验中进一步操作。 这里我们分别对这三个组件进行实验,以验证它们的贡献和融合它们的必要性。 如表 6 所示,与基线相比,每个高频分量都对模型性能有贡献,融合它们可以更好地提升生成质量。
4.3 兼容性与 GAN 平衡(equilibrium)分析
我们模型的兼容性。 Lecam 和 MoCA 分别利用正则化和注意机制在有限数据下训练 GAN。 我们在它们上实施我们提出的技术来测试我们方法的兼容性。 我们保持原始设置不变,并将正则化权重设置为 0.1。 FID 结果在表 7 中给出。从中我们可以看出 FreGAN 可以进一步提升 MoCA 和 Lecam 的性能,证明我们的方法是对模型正则化和注意机制方法的补充。
GAN 平衡得到改善。 我们的 HFA 模块对齐真实图像和生成图像的频率分量,引导 G 合成精确而非任意的高频信号。 同时,作为副产品,HFA 缩小了 G 和 D 之间的域差距,缓解了恶性竞争。
- 如图 5 (a) 所示,我们的判别器收敛到一个更好的点,我们的生成器可以更好地欺骗判别器,而 FastGAN 的判别器超过生成器,从而提供较少的信息指导并降低合成质量。
- 我们在图 5(b)中绘制了整个训练过程中的 FID 和 KID 曲线,从中我们可以观察到我们的 FreGAN 始终更好。
- 我们在图 5(c)中绘制了多尺度 HFA 损失曲线,其中每条线表示每个尺度的损失。 这些曲线表明频率信号对齐良好,缩小了域间隙并促进了 GAN 平衡。
5. 讨论
结论。 在本文中,提出了一种在有限数据下训练 GAN 的频率感知方法,即 FreGAN。FreGAN 通过提高模型的频率意识来改善合成质量,鼓励模型更加关注频率信号,尤其是高频信号,这些信号编码图像的精细细节。 我们对具有不同数据量和不同分辨率的各种数据集进行了大量实验,以证明我们提出的方法的有效性。 定性结果表明,我们的模型成功地使生成器生成精确的高频信号,促进了高质量图像的生成。 定量结果表明,我们的方法
- 显着提高了性能,尤其是在数据极其有限(少于 100)时
- 是对现有正则化和注意力模型的补充。
- 还可通过减少频率信息差距来缓解 GAN 的不平衡。
将来,我们计划在更多主干上实施我们的技术,例如 StyleGAN2,并将我们的方法应用于更多应用程序。
限制。尽管在各种低数据数据集上取得了显着改进,但我们的 FreGAN 在给定数据有限但内容多样的数据集(例如,只有几十张图像,并且它们的内容差异很大)的情况下,仍然难以生成逼真的图像。 当低数据数据集不平衡甚至长尾时,FreGAN 可能无法泛化,这受到数据分布的内在原因的限制。 开发更有效的方法来训练训练数据不足的生成模型仍然需要付出更多的努力。
参考
Yang M, Wang Z, Chi Z, et al. FreGAN: Exploiting Frequency Components for Training GANs under Limited Data[J]. arXiv preprint arXiv:2210.05461, 2022.
A. 附录
A.1 更多实现细节
实现 FreGAN 的细节。 我们对 G 和 D 的中间 8x8, 16x16, 32x32 特征进行 Haar 小波变换。我们通过对分解的高频分量进行小波反池化,并将重建的特征馈送到后续层来执行 FSC。 对于 HFD,我们通过添加 LH、HL、HH 来聚合高频分量,然后使用额外的下采样和卷积层来计算输出分数。 具体来说,该架构类似于原始鉴别器。 在高频分量上添加的层包括 2d 卷积层、2d 批量归一化层和 LeakyReLU 层。 不同之处在于,HFD 对输入图像的频率信息进行了判别,提高了判别器的频率感知能力。 对于 HFA,我们通过最小化主论文中的等式 4 来对齐真实和生成的中间特征的求和频率信号。 值得注意的是,只需为每个高频分量添加 1-2 个附加层,而无需太多计算成本。 我们训练我们的模型进行 100k 次迭代,并每 10k 次迭代保存一次检查点。 保存的检查点用于生成用于评估的图像。 所有实验都在 2 个带有 PyTorch 框架的 Tesla V100 GPU 上运行,我们的代码将在线提供。
S. 总结
S.1 核心思想
为了提高数据有限情况下 GAN 的合成性能,作者考虑使用图像的频率信息。
GAN 在拟合数据分布时,往往倾向于拟合低频信息(例如,颜色和亮度)而忽略高频信息(边缘等精细细节)。
本文提出了一种称为 FreGAN 的频率感知模型,以提高 G 和 D 的频率感知能力。通过鼓励 G 生成更合理高频信号,从而提高合成性能。
S.2 方法
FreGAN 的总体框架如上图所示。先利用 Haar 小波变换将特征分解为不同的频率分量。 然后,使用高频鉴别器 (HFD) 和跳频连接 (FSC) 分别提高 D 和 G 的频率意识,并使用高频对齐 (HFA) 进一步引导 G 合成合理的频率信号。
小波变换。与在图像级别使用的传统小波变换不同,作者对 D 和 G 的中间特征执行它。
高频鉴别器(HFD)。从频域区分真实图像和虚假图像,如公式 1 和 2 所示。(对于公式 2,我认为因为作者的失误,而少添加一个负号)
随着网络的加深,D 可能会避开高频信息,因此需要在鉴别器的多层上执行多尺度 HFD,保证有限数据中频率信息被充分挖掘和利用,进一步提高 D 的频率感知能力。
跳频连接(FSC)。GAN 从低频到高频拟合频率信号,随着网络的加深,高频信号可能会被忽略。为了防止高频信息的丢失并进一步鼓励生成器产生丰富的细节,提出了跳频连接(FSC)。
具体操作是,把 G 每一层重建的频率表示(representation)送入的下一层。
高频对齐(HFA)。G 可以合成任意频率信号,为引导 G 利用频率信息,为损失函数添加如下正则化项,使用 D 中间特征频率表示的高频分量监督 G 生成合理的中间特征频率表示的高频分量。
与 HFD 类似,同样在多层上执行多尺度 HFA。
S.3 优化
基础损失函数如公式 5 和 6 所示。
还使用重建损失来鼓励鉴别器提取更具代表性的特征。
其中,f 是 D 的中间特征,G 和 T 表示对特征 f 和输入图像 x 的处理。 判别器和生成器分别通过以下方式优化,每个损失的系数设置为1。