Multi-Agent Diverse Generative Adversarial Networks

Multi-Agent Diverse Generative Adversarial Networks

本文描述了对生成对抗网络(GANs)的直观概括,以生成样本,同时捕捉到真实数据分布的不同模式。首先,我们提出了一个非常简单和直观的多代理GAN架构,它包含了能够从高概率模式生成样本的多个生成器。其次,为了强制不同的生成器从不同的模式生成样本,我们提出了对标准GAN目标函数的两个扩展。

(1)我们用一个多样性强制项来增强生成器的GAN目标函数,鼓励不同的生成器使用用户定义的基于相似性的函数生成不同的样本。(2)我们修改了鉴别器的目标函数,在找到真实和虚假样本的同时,鉴别器必须预测产生给定虚假样本的发生器。直观地说,为了成功完成这项任务,鉴别器必须学会把不同的生成器推向不同的可识别模式。我们的框架是可推广的,因为它可以很容易地与其他现有的GANs变体结合起来,产生多样化的样本。实验表明,我们的框架能够为具有挑战性的任务(如图像/面部生成和图像到图像的翻译)产生高质量的多样化样本。我们还表明,它能够在无监督的情况下学习更好的特征表示。

1. Introduction

尽管GANs在各种应用中取得了显著的成功,但它的一个主要缺点是 "模式崩溃 "的问题(如图1所示)[2, 4, 5, 17, 23]。尽管从理论上讲,在收敛时生成器应该能够学习到真正的数据分布,但实际上这并没有发生,因为学习问题的最小化性质使得它很难达到真正的平衡。概括地说,有两个方向可以解决这个问题。(1) 改进GANs的学习方面,类似于[2, 17, 23];(2) 强制GANs捕捉各种模式,类似于[4, 5, 15]。在这项工作中,我们重点关注后者。

受multi-agent算法[1]和coupled GAN[15]的启发,我们建议使用多个生成器与一个判别器,并允许生成器共享信息。我们称之为multi-agent GAN架构,如图2所示。更详细地说,与标准的GAN相似,这里每个生成器的目标是使共同的判别器的错误最大化。为了使不同的生成器能够相互共享信息,我们在所有的生成器之间共享主要的参数块。

在这里插入图片描述

图2. 多Agent Diverse GAN(MAD-GAN)架构。除最后一层外,所有生成器共享所有层的参数。两个拟议的多样性执行目标,"竞争 "和 “生成器识别”,显示在判别器的末端。

共享这些参数背后的另一个原因是,初始层捕获的高频结构对于特定类型的数据集(例如,人脸)来说几乎是相同的,因此,共享这些参数可以减少不同生成器的冗余计算。现在,为了使不同的生成器在视觉上有所不同,我们建议为每个生成器使用不同的 end-layers。天真地使用这种简单的方法可能会导致所有生成器都学会生成多个但类似的样本。

为了解决这个问题,并产生不同的视觉上可信的样本,捕捉真实数据分布的各种高概率模式,我们提出了对标准GAN的两个扩展。第一个扩展涉及到用一个多样性强制项来增强生成器的特定目标函数,其中多样性来自于用户定义的特定任务函数。例如,多样性强制项可以是不同生成器生成的不同样本之间的相似度测量。

这一条款保证了不同generations 是不一样的,同时捕捉到了高概率区域。第二个扩展涉及修改鉴别器的目标函数。在这种情况下,除了找到真假样本外,鉴别器还必须正确预测产生给定假样本的生成器。直观地说,为了成功完成这项任务,鉴别器必须学会将不同生成器对应的generations 推向不同的可识别模式。将多Agent GAN架构与多样性强制条款结合起来,我们就可以生成不同的可信样本,因此被称为多Agent Diverse GAN(MAD-GAN)。

4. Multi-Agent Diverse GA

GAN目标函数中生成器的任务要比判别器的任务难得多,因为它必须产生真实的图像,同时使判别器的错误最大化。这一点以及目标函数的最小化性质给GANs带来了一些挑战,如[2, 4, 5, 17, 23]。1)模式崩溃;(2)困难的优化;以及(3)琐碎的解决方案。在这项工作中,我们提出了一个新的框架,通过增加生成器的容量来解决 "模式崩溃 "的第一个挑战,同时我们使用众所周知的优化技巧来部分地避免其他挑战。

简而言之,我们提出了一个多代理GAN架构,它采用了多个生成器,以生成不同的样本,同时捕捉真实数据分布的高概率区域。为了鼓励不同的生成器走向不同的多样化模式,我们提出了对标准GAN的两个扩展–(1)基于相似性的竞争目标:用一个多样性强制项来增加GAN的目标函数,确保来自不同生成器的生成是多样化的,其中的多样性取决于用户定义的特定任务函数和(2) 基于生成器识别的目标:修改鉴别器的目标函数,在寻找虚假样本的同时,鉴别器必须找到产生给定虚假样本的生成器。将多代理结构与多样性强制条款结合起来,就形成了一个能够捕捉真实数据分布的各种高概率区域的框架。

我们提出的框架非常通用,因为它可以用于不同的GANs变体。在下文中,我们将详细描述我们的框架。

4.1. Multi-Agent GAN Architectual

在本节中,我们描述了我们提出的架构,如图2所示。它包括k个生成器和一个鉴别器。我们允许所有生成器通过绑定初始层的参数来共享信息。一个天真的方法是允许不同的生成器拥有完全不同的参数集。然而,由于生成器的初始层捕获的高频结构对于特定类型的数据集(例如人脸)几乎是相同的,因此,参数共享对于避免冗余计算和允许不同的生成器更快地收敛是至关重要的。

为了从不同的生成器中产生不同的视觉效果,我们对每个生成器的end-layer使用完全独立的参数集。具体来说,给定第i个生成器的 z ∼ p z z∼p_z zpz,与标准的GAN类似,第一步是生成一个样本(例如,一个图像) x ~ i \widetilde x_i x i。请注意,每个生成器都收到一个从相同分布中采样的不同潜在输入。直观地使用这种简单的方法可能会导致琐碎的解决方案,即所有生成器都学会生成多个类似的样本。在下文中,我们将讨论两种方法,通过强制生成样本的多样性来避免这个问题。

4.2. Enforcing Diverse Modes

在这里,我们提出了两个备选方案,以便将不同的生成器推向不同的多样化模式。图3展示了一种直观的方式来显示对生成器强制执行多样性的效果。

在这里插入图片描述

图3. 如第4.2节所解释的,不同的生成器是如何被推向不同的高概率模式的直观可视化。请注意,M1和M2可能是一个模式簇,每个簇本身包含不同的模式。箭头抽象地表示生成器的具体梯度,以建立直觉。

4.2.1 Similarity based competing objective

这里提出的方法的动机是,来自不同模式的样本必须看起来不同。例如,在图像的情况下,这些样本应该在纹理、颜色、阴影和其他各种线索方面有所不同。因此,不同的生成器必须产生不同的样本,其中的不相似性来自一个特定的任务函数。在深入研究细节之前,让我们首先定义一些符号,以避免混乱。

我们把 θ g i θ^i_g θgi表示为第i个生成器的参数。生成器的集合被表示为 K = { 1 , . . . , k } K = \{1,..., k\} K={1,...,k}。给予第i个生成器的随机噪声z,相应的生成样本 G i ( z ; θ g i ) G_i(z; θ^i_g) Gi(z;θgi)表示为 g i ( z ) g_i(z) gi(z)。使用这些符号并遵循上述讨论的直觉,我们在更新第i个生成器的参数时对其施加以下约束。

在这里插入图片描述

其中, φ ( g i ( z ) ) φ(g_i(z)) φ(gi(z))表示第i个生成器生成的图像 g i ( z ) g_i(z) gi(z)在特征空间的映射,∆(…, .)∈[0, 1]是相似度函数。 ∆(., .)的值越大,就越相似。直观地说,上述一组约束条件确保每个生成器的判别分数应该高于所有其他生成器,其margin 与相似性分数成正比。如果样本是相似的,margin 就会增加,约束条件就会变得更加积极。我们使用基于无监督学习的表征作为我们的映射函数φ(.)。

准确地说,给定一个生成的样本 g i ( z ) g_i(z) gi(z) φ ( g i ( z ) ) φ(g_i(z)) φ(gi(z))是使用我们框架的判别器得到的特征向量。这是由基于特征匹配的方法来提高GANs训练的稳定性所激发的[23]。本工作中使用的∆(., .)函数是基于余弦相似性的标准函数。上述约束可以通过最大化一个等效的无约束的目标函数来满足,定义如下:

在这里插入图片描述

其中, f ( a ) = m i n ( 0 , a ) , ψ i = φ ( g i ( z ) ) , ψ j = φ ( g j ( z ) ) f(a)=min(0,a),ψ_i=φ(g_i(z)),ψ_j=φ(gj(z)) f(a)=min(0,a)ψi=φ(gi(z))ψj=φ(gj(z))。直观地说,如果f(.)的参数是正的,那么就满足了理想的约束条件,不需要做任何事情。否则,将参数与 θ g i θ^i_g θgi的关系最大化(. Otherwise, maximize the argument with respect to θ g i θ^i_g θgi)。注意,我们不是独立使用所有的约束,而是使用所有约束的平均值。另一种方法是使用对应于第j个生成器的约束,该生成器最大限度地违反了方程2中所示的约束集。通过实验我们发现,基于平均约束的目标的训练过程比基于最大违反约束的目标更稳定。使用这些约束条件的直觉来自于众所周知的结构化SVM框架的1-slack表述[12, 24]。因此,第i个生成器的总体目标是。
在这里插入图片描述

在这里插入图片描述

其中λ≥0是超参数。算法1显示了如何计算对应于上述目标函数的不同生成器的梯度。请注意,一旦取样,相同的Z就会通过所有的生成器,以便对某个特定的生成器实施约束(如公式2所示)。然而,为了在更新另一个生成器时使约束条件不相互矛盾,要从 p z p_z pz中再次采样不同的z。算法1是针对批量大小为1的情况,对于任何给定的批量大小,都可以进行简单的概括。在判别器的情况下,梯度的形式与标准GAN目标完全相同。唯一的区别是,在这种情况下,假样本是由k个生成器生成的,而不是一个

在这里插入图片描述

4.2.2 Generator identification based objectie

受半监督学习[23]的鉴别器表述的启发,我们使用了一个基于生成器识别的目标函数,除了最小化score D ( x ~ ; θ d ) D(\widetilde x; θ_d) D(x ;θd)外,还要求鉴别器识别生成给定虚假样本 x ~ \widetilde x x 的生成器。为了做到这一点,相对于标准的GAN目标函数,即鉴别器输出一个标量值,我们将其修改为输出k+1个 soft-max scor。更详细地说,给定k个生成器的集合,判别器在k+1个类别上产生一个soft-max概率分布。第(k+1)个索引的得分代表样本属于真实数据分布的概率,第 j ∈ { 1 , . . , k } j∈\{1, . . , k\} j{1,..,k}个索引的分数代表它由第j个生成器生成的概率。

在这种情况下,在学习 θ d θ_d θd的同时,我们优化鉴别器的 soft-max output和Dirac delta δ ∈ { 0 , 1 } k + 1 δ∈\{0, 1\}^{k+1} δ{0,1}k+1之间的交叉熵,其中对于 j ∈ { 1 , . . . , k } j∈\{1, . . . ,k\} j{1,...k},如果样本属于第j个生成器,δ(j)=1,否则δ(k+1)=1。因此,在保持θg不变的情况下,优化θd的目标函数(1)变为

在这里插入图片描述

其中, S u p p ( p ) = ∪ i = 1 k S u p p ( p g i ) ∪ S u p p ( p d ) Supp(p)=∪^k_{i=1}Supp(p_{g_i})∪Supp(p_d) Supp(p)=i=1kSupp(pgi)Supp(pd),H(., .)是交叉熵函数的负值。直观地说,为了正确预测哪个发生器产生了一个给定的虚假样本,鉴别器必须学会将不同的发生器推向不同的可识别模式。

为了更新参数,每个生成器的梯度只是 ∇ θ g i l o g ( 1 − D ( G i ( z ; θ g i ) ; θ d ) ) ∇_{θ^i_g} log(1 - D(G_i(z; θ ^i_g); θ_d)) θgilog(1D(Gi(z;θgi);θd))。注意,在这种情况下,所有的生成器都可以并行更新。对于判别器,给定x∼p(可以是真实的或假的)和相应的δ,梯度是 ∇ θ d l o g D j ( x ; θ d ) ∇_{θ_d} log D_j (x; θ_d) θdlogDj(x;θd),其中 D j ( x ; θ d ) D_j (x; θ_d) Dj(x;θd)是δ(j)=1的 D ( x ; θ d ) D(x; θ_d) D(x;θd)的第j个索引。

因此,使用基于生成器识别的目标函数需要对标准的GAN优化算法进行非常小的修改,可以很容易地用于GAN的不同变体。使用定理1,我们表明,最佳生成器以分布的混合形式学习真实的数据分布 1 k Σ i = 1 k p g i \frac{1}{k}\Sigma^k_{i=1} p_{g_i} k1Σi=1kpgi,其中每个分布成分都被赋予 1 k \frac{1}{k} k1的同等权重。

在这里插入图片描述

i} , 其 中 每 个 分 布 成 分 都 被 赋 予 ,其中每个分布成分都被赋予 \frac{1}{k}$的同等权重。

[外链图片转存中…(img-zD2RGm6o-1621848734011)]

Multi-Agent Diverse Generative Adversarial Networks

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"noisytwins: class-consistent and diverse lmage generation through stylegans" 是关于通过 StyleGANs 实现类别一致和多样化图像生成的研究。 StyleGAN 是一种生成对抗网络 (GAN) 的变种,用于生成逼真的图像。它通过学习图像的潜在空间表示来生成图像,其中每个点都对应一个唯一的图像。在这项研究中,noisytwins 提出了一种改进的 StyleGAN 模型,旨在生成类别一致且具有多样性的图像。 传统的 StyleGAN 模型通常只能生成与训练数据集类别相似的图像,而无法产生跨类别的多样性。对于一个类别,它通常只能生成该类别中的某一个具体样式的图像。然而,noisytwins 通过引入噪音向量,并通过控制这些向量的方式,将该模型扩展至能够在一个类别内生成多种样式的图像。 通过这种方式,noisytwins 的模型能够生成以同一类别为主题的图像,同时在样式上具有多样性。例如,如果我们以猫为类别,传统的 StyleGAN 模型只能生成某一种具体颜色和纹理的猫图像,而 noisytwins 的模型可以生成多种颜色和纹理的猫图像。 这项研究的意义在于扩展了现有的图像生成技术的应用范围。通过实现类别一致且具有多样性的图像生成,noisytwins 的模型可以在许多领域中有重要的应用,如计算机游戏开发、虚拟现实技术以及艺术创作等。 总之,"noisytwins: class-consistent and diverse lmage generation through stylegans" 是一篇关于利用改进的 StyleGANs 实现具有类别一致性和多样性的图像生成的研究,该研究扩展了现有的图像生成技术,并在多个领域中有广泛的应用潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值