InfoMax-GAN

InfoMax-GAN: Improved Adversarial Image Generation via Information Maximization and Contrastive Learning

虽然生成对抗网络(GANs)是许多生成建模应用的基础,但它们存在许多问题。在这项工作中,我们提出了一个原则性的框架,以同时缓解生成对抗网络中的两个基本问题:判别器的灾难性遗忘和生成器的模式崩溃。我们通过对GANs采用对比学习和互信息最大化的方法来实现这一目标,并进行广泛的分析以了改进的来源。在相同的训练和评估条件下,我们的方法大大稳定了GAN的训练,并提高了GAN在五个数据集上的图像合成性能。特别是,与最先进的SSGAN相比,我们的方法在图像领域(如人脸)上的性能并不差,相反,性能明显提高。我们的方法简单实用:它只涉及一个辅助目标,计算成本低,并且在广泛的训练环境和数据集中表现稳健,无需任何超参数调整。为了可重复性,我们的代码可在Mimicry[34]中找到:https://github.com/kwotsin/mimicry。

1. Introduction

GAN训练不稳定的一个主要原因是训练环境的非平稳性:随着生成器的学习,判别器所面对的建模分布 p g p_g pg是不断变化的。由于我们的GAN模型是神经网络,判别器很容易受到灾难性遗忘的影响[10, 25, 28, 40],这种情况下,网络学习临时表征,随着网络权重的更新,忘记先前的任务而专注于当前的任务,这导致了训练的不稳定性。最先进的Self-supervised GAN(SSGAN)[10]首次证明了表征学习方法可以缓解判别器的灾难性遗忘,从而提高训练稳定性。然而,该方法仍然没有明确地缓解模式崩溃。此外,[61]表明,虽然SSGAN的方法有助于缓解鉴别器的灾难性遗忘,但它实际上促进了生成器的模式崩溃。

为了克服这些问题,我们提出了一种同时缓解灾难性遗忘和模式崩溃的方法。在鉴别器方面,我们应用互信息最大化来改善长期表征学习,从而减少非平稳训练环境中的灾难性遗忘。在生成器方面,我们采用对比性学习来激励生成器产生不同的图像,以提供易于区分的正/负样本,从而减少模式崩溃。通过缓解这两个问题,我们展示了使用GANs对自然图像合成的广泛的实际改进。我们将我们的贡献总结如下。

  • 我们提出了一个GAN框架,通过使用一个目标同时缓解两个关键的GAN问题来改善自然图像合成:判别器的灾难性遗忘(通过息最大化)和生成器的模式崩溃(通过对比学习)。我们的方法同时缓解了鉴别器和生成器的问题,而不是单独缓解其中一个。

  • 通过这种多方位的方法,我们在相同的训练和评估条件下,与最先进的作品相比,在五个不同的数据集上显著提高了GAN图像的合成。

  • 我们的框架是轻量级和实用的:它只引入了一个辅助目标,具有较低的计算成本,并且对广泛的训练设置具有鲁棒性,不需要进行任何调整。

  • 我们的工作首次证明了对比性学习对显著提高GAN性能的有效性,也是首次在GAN环境中应用InfoMax原则,我们希望这将在这些领域开辟一个新的研究方向。

2. Background

Mutual information and representation learning 互信息与representation learning有着深刻的联系[5],我们的目标是学习一个编码器函数E,它理想地捕获了输入数据X的最重要特征,通常是在低维的 latent space。这个概念包含在InfoMax目标[35]中:
在这里插入图片描述

其中 E \mathcal E E是一些函数类,目标是找到一些E,使输入数据和其encoded representations E(X)之间的互信息最大化。为了使InfoMax目标最大化,我们可以选择最大化 I ( C ψ ( X ) ; E ψ ( X ) ) \mathcal I(C_ψ(X); E_ψ(X)) I(Cψ(X);Eψ(X)),其中 C ψ 和 E ψ C_ψ和E_ψ CψEψ是属于同一架构的编码器,参数为ψ。在[63]中显示,最大化 I ( C ψ ( X ) ; E ψ ( X ) ) \mathcal I(C_ψ(X); E_ψ(X)) I(Cψ(X);Eψ(X))是对InfoMax目标的下限的最大化。

在这里插入图片描述

在实践中,最大化 I ( C ψ ( X ) ; E ψ ( X ) ) \mathcal I(C_ψ(X); E_ψ(X)) I(Cψ(X);Eψ(X))有几个优点。(a) 使用不同的特征编码使我们能够捕捉到数据的不同观点和模式,以实现建模的灵活性[3,57];(b) 编码后的数据位于比原始数据维度低得多的潜在空间中,从而减少计算限制[51,63]。

Contrastive learning 最近,无监督表征学习中最先进的工作[3, 22, 24, 29, 37, 47, 57]在于采取一种对比性的方法来最大化编码的局部和全局特征之间的互信息。然而,由于直接最大化互信息在实践中往往是难以实现的[49],这些工作往往以InfoNCE[47]的下限来最大化,这涉及到通过让 critic 找到与一组负面样本相对应的正样本来最小化contrastive loss。这种正/负样本是通过 pairing features [24], augmentation [9], or a combination of both [3]任意创建的。我们的工作同样是在这个InfoNCE约束上实现最大化,并且最接近Deep InfoMax[24]的方法,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值