WaveGAN: Frequency-aware GAN for High-Fidelity Few-shot Image Generation

最新推荐文章于 2024-07-18 10:20:59 发布

-DX-3906

最新推荐文章于 2024-07-18 10:20:59 发布

阅读量1.7k

点赞数 39

文章标签：计算机视觉人工智能机器学习深度学习 python

本文链接：https://blog.csdn.net/m0_61810204/article/details/136793031

版权

原文地址：[2207.07288] WaveGAN: Frequency-aware GAN for High-Fidelity Few-shot Image Generation (arxiv.org)

💡 摘要: 现有的少样本图像生成方法通常在图像或特征级别上采用基于融合的策略来生成新图像。然而，以前的方法很难合成具有精细细节的高频信号，从而降低了合成质量。WaveGAN可以解决该问题，这是一种用于少样本图像生成的频率感知模型。具体来说，其将编码特征分解为多个频率分量，并执行低频跳跃连接以保留轮廓和结构信息。然后，其通过采用高频跳跃连接来减轻生成器合成细节的困难，从而为生成器提供信息丰富的频率信息。此外，其在生成的图像和真实图像上利用频率 L1 损失来进一步阻止频率信息丢失。

👀 解决问题

现有的方法忽略了频率信息在整个生成过程中的巨大影响。F-principal证明了神经网络倾向于优先拟合从低到高的频率信号。因此，现有方法模型倾向于优先生成频率较高、表面复杂度较高的信号，即只生成低频信号。

🎨 相关工作

小波变换在 GANs 中的应用：
- 小波变换将给定信号分解成不同频率成分，在图像生成中取得了显著的成功。被应用于风格转移、图像重建、图像修复、图像编辑和图像超分辨率等各种生成任务中。旨在在频率域中缩小信息差距，以提高模型的性能。
对少样本图像生成的探索：
- 少样本图像生成模型旨在从少量图像中生成新的图像，受到人类从少量观察中进行广义化的启发。
- 现有的少样本图像生成方法大致分为三类：基于优化、基于融合和基于变换的方法。优化方法将潜在代码和编码图像转换为新图像；融合方法将局部特征或输入图像融合以合成新图像；变换方法结合了变分自编码器（VAE）等方法来捕获少样本分布。
- 与以往的零样本或少样本文本到图像生成方法不同，侧重于解决给定特定类别的少量数据时生成新图像的问题。

🧤 主要方法

整体架构

Generator（生成器）：WaveEncoder 和 WaveDecoder 组成了生成器，负责生成新的图像。
WaveEncoder：用于提取图像的特征表示
WaveDecoder：将编码后的特征表示解码为新的图像。
Discriminator（判别器）：负责区分真实图像和生成图像，

损失函数

频率损失函数 Frequency L1-Loss
局部重构损失函数 Local Reconstruction Loss
对抗损失 Adversarial Loss
分类损失 Classification Loss

👑 主要创新点

Base-Index逆变换（Base-Index Inverse Transformation）

平均逆变换将多个图像的高频信号取平均值后提供给解码器，但是这种平均值可能会导致频率信号的偏移，从而使得解码器无法准确地还原原始图像的细节。随着训练样本数量的增加，这种平均值变得越来越中性，无法很好地适应各种不同的图像，导致生成的图像在细节方面的泛化能力下降。而Base-Index逆变换通过明确地选择与记录索引 i 对应的高频分量，而不是计算平均频率信号，从而提供给解码器精细的细节信息。这些高频组件是选定特征的确切频率信号，因此能够为解码器提供定制的丰富细节和可感知信息，该方法的泛化能力不会随着训练数量的增加而降低。最后，通过执行逆变换来将聚合的高频信号重构回原始特征，进而生成高质量的图像。

频率信息关注

在编码器进行小波变换，将其分解为多个频率成分。这样做可以提取图像的频率信息，将其表示为不同的频率信号。使用低频跳跃连接来保留整体结构和轮廓，使用高频跳跃连接提供详细信息。在解码器使用小波逆变换，将高频信号重构为原始特征，其包含丰富的细节和可感知的信息，有助于生成高质量的图像。

🍔 实验

实验结果

结果可视化

消融实验

-DX-3906

关注

39
点赞
踩
49

收藏

觉得还不错? 一键收藏
0
评论
WaveGAN: Frequency-aware GAN for High-Fidelity Few-shot Image Generation

现有的少样本图像生成方法通常在图像或特征级别上采用基于融合的策略来生成新图像。然而，以前的方法很难合成具有精细细节的高频信号，从而降低了合成质量。WaveGAN可以解决该问题，这是一种用于少样本图像生成的频率感知模型。具体来说，其将编码特征分解为多个频率分量，并执行低频跳跃连接以保留轮廓和结构信息。然后，其通过采用高频跳跃连接来减轻生成器合成细节的困难，从而为生成器提供信息丰富的频率信息。此外，其在生成的图像和真实图像上利用频率 L1 损失来进一步阻止频率信息丢失。
复制链接

扫一扫