Diffusion-GAN: Training GANs with Diffusion

目录

Abstract

1. Introduction

2. Preliminaries: GANs and diffusion-based generative models

3. Diffusion-GAN: Method and Theoretical Analysis

3.1 Instance noise injection via diffusion

3.2 Adversarial Training

3.3 Adaptive diffffusion

3.4 Theoretical analysis with Examples

3.5 Related work

4 Experiments

4.1 Comparison to state-of-the-art GANs

4.2 Effectiveness of Diffusion-GAN for domain-agnostic augmentation

4.3 Effectiveness of Diffusion-GAN for limited data

5 Conclusion


 Diffusion-GAN: 将GAN与diffusion一起训练

Diffusion-GAN主要关注的是 stabilize GAN training 的问题。为了实现GAN的稳定训练,将实例噪声注入鉴别器的输入理论上可行但缺少实践的验证。本文介绍了Diffusion-GAN,它采用了高斯混合分布,在前向扩散链条中的所有扩散步骤中引入实例噪声。将观察到的或生成的数据中扩散出的混合物的随机样本作为输入送入鉴别器。生成器通过前向扩散链反向传播其梯度进行更新,其长度是自适应调整的,以控制每个训练步骤中允许的最大噪声与数据比率。
 

Abstract

Generative adversarial networks (GANs) are challenging to train stably, and a promising remedy of injecting instance noise into the discriminator input has not been very effective in practice. In this paper, we propose Diffusion-GAN, a novel GAN framework that leverages a forward diffusion chain to generate Gaussian-mixture distributed instance noise. Diffusion-GAN consists of three
components, including an adaptive diffusion process, a diffusion timestep-dependent discriminator, and a generator. Both the observed and generated data are diffused by the same adaptive diffusion process. At each diffusion timestep, there is a different noise-to-data ratio and the timestep-dependent discriminator learns to distinguish the diffused real data from the diffused generated data. The generator learns from the discriminator’s feedback by backpropagating through the forward diffusion chain, whose length is adaptively adjusted to balance the noise and data levels. We theoretically show that the discriminator’s timestep-dependent strategy gives consistent and helpful guidance to the generator, enabling it to match the true data distribution. We demonstrate the advantages of Diffusion-GAN over strong GAN baselines on various datasets, showing that it can produce more realistic images with higher stability and data efficiency than state-of-the-art GANs.

生成对抗网络(GANs)的稳定训练具有挑战性,而在鉴别器输入中注入实例噪声的解决方法在实践中还不是很有效。在本文中,我们提出了一种新的GAN框架,它利用一个前向扩散链来产生高斯混合分布的实例噪声。扩散-gan由三个组成部分组成,包括一个自适应扩散过程、一个与扩散时间步长相关的鉴别器和一个发生器。观测数据和生成的数据都通过相同的自适应扩散过程进行扩散。在每个扩散时间步长,有不同的噪声-数据比,时间步长相关的鉴别器学习区分扩散的真实数据和扩散生成的数据。生成器通过前向扩散链的反向传播从鉴别器的反馈中学习,该扩散链的长度被自适应地调整以平衡噪声和数据水平。我们从理论上证明,鉴别器的时间步长依赖策略为生成器提供了一致和有用的指导,使其能够匹配真实的数据分布。我们在不同的数据集上展示了扩散-gan相对于强GAN基线的优势,表明它可以比最先进的GAN产生更真实的图像,稳定性和更高的数据效率。

主要贡献:

1) We show both theoretically and empirically how the diffusion process can be utilized to provide a model- and domain-agnostic differentiable augmentation, enabling data-efficient and leaking-free stable GAN training.【稳定了GAN的训练】
2) Extensive experiments show that Diffusion-GAN boosts the stability and generation performance of strong baselines, including StyleGAN2 , Projected GAN , and InsGen , achieving state-of-the-art results in synthesizing photo-realistic images, as measured by both the Fréchet Inception Distance (FID)  and Recall score.【diffusion提升了原始只有GAN组成的框架的性能,例如styleGAN2,Projected GAN】
 

1. Introduction

Generative adversarial networks (GANs) 生成对抗网络以及变式---合成逼真的高分辨率图像
存在的问题:不收敛性和训练的不稳定性---模式崩溃
解决方案:improving the network architectures、 gaining theoretical understanding of GAN training、changing the objective functions regularizing the weights and/or gradients、utilizing side information利用侧面信息、adding a mapping from the data to latent representation 从数据到潜在表示法的映射applying difffferentiable data augmentation应用可微数据增强
稳定GAN训练的一种简单技术是注入实例噪声,即在鉴别器输入中添加噪声,这可以扩大生成器和鉴别器分布的支持,防止鉴别器过拟合。然而,这种技术很难在实践中难以实现,因为找到合适的噪声分布具有挑战性。Roth等人表明,在高维鉴别器输入中添加实例噪声并不能很好地工作,并提出通过在鉴别器上添加一个零中心梯度惩罚来近似它。梅切德等人的理论和经验表明该方法收敛,他们还证明,与WGAN-GP相比,在非饱和GANs中添加零中心梯度惩罚可以导致稳定的训练和更好或可比的生成质量。然而,Brock等人警告说,零中心梯度惩罚和其他类似的正则化方法可能以生成性能为代价稳定训练。据我们所知,目前还没有现有的工作能够通过经验证明在高维图像数据的GAN训练中使用实例噪声是成功的。
为了注入适当的实例噪声,以促进GAN的训练,我们引入了扩散-GAN,它使用一个扩散过程来产生高斯混合分布的实例噪声。我们在图1中展示了扩散-gan的图形表示。在扩散-gan中,扩散过程的输入要么是真实的图像,要么是生成的图像,扩散过程由一系列步骤组成,逐渐向图像添加噪声。扩散步长的数量不是固定的,而是取决于数据和生成器。我们还设计了扩散过程的可微性,这意味着我们可以计算输出对输入的导数。这允许我们通过扩散过程将梯度从鉴别器传播到生成器,并相应地更新生成器。与普通的GANs直接比较真实图像和生成的图像不同,扩散-gan比较了它们的噪声版本,这是通过从扩散步骤上的高斯混合分布中采样得到的,在我们的时间步长相关的鉴别器的帮助下获得的。该分布的特性是其组件具有不同的噪声-数据比,这意味着某些组件比其他组件添加更多的噪声。通过从这个分布中抽样,我们可以实现两个好处:首先,我们可以通过缓解消失梯度的问题来稳定训练,当数据和生成器分布太不同时就会发生;其次,我们可以通过创建同一图像的不同噪声版本来增加数据,这可以提高数据效率和生成器的多样性。我们提供了一个理论分析来支持我们的方法,并表明扩散-gan的最小-最大目标函数,它测量数据和发电机分布之间的差异,是连续的和可微的。这意味着发生器在理论上总是可以从鉴别器中接收到一个有用的梯度,并提高其性能。
我们的主要贡献包括:
1)我们从理论和经验上展示了如何利用扩散过程来提供一个模型和领域无关的可微增强,使数据高效和无泄漏的稳定GAN训练。
2)大量实验表明,扩散-GAN提高了强基线的稳定性和生成性能,包括StyleGAN2 、投影GAN ,以及InsGen ,在合成逼真图像方面实现了最先进的结果,通过弗雷切特初始距离(FID)和回忆评分测量的。

3. Diffusion-GAN: Method and Theoretical Analysis

为了构造扩散-gan,我们描述了如何通过扩散注入实例噪声,如何通过正向扩散过程的反向传播来训练生成器,以及如何自适应地调整扩散强度。我们进一步提供了一个玩具例子说明的理论分析。

Q:这篇是做diffusion和gan结合的,可以参照一下看看能不能做cyclegan的形式,同时也可以调研一下有没有人follow这篇论文做了类似cyclegan的事情

①能不能做cycleGAN

必须能

②有人做cycleGAN了吗

有了 cyclediffusion 2023ICCV

github链接    论文链接

补充:图像生成

 出处:图像生成任务

现在可以补上一个Cycle-Diffusion了

后话:拖了很久,最近家里事情不少,手里的一篇论文也在大修

终于抽出时间继续读啦 但是小的愚笨 就只能读这些了

今天看CSDN看到有人以周报的形式记录 觉得相当不错

打算从明天开始写周报 不这样零零碎碎的记录了

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值