Partition-Guided GANs

最新推荐文章于 2022-05-24 17:10:47 发布

ysh9888

最新推荐文章于 2022-05-24 17:10:47 发布

阅读量235

点赞数

分类专栏：笔记 text2img 文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/qq_43620967/article/details/120310353

版权

笔记同时被 2 个专栏收录

40 篇文章 5 订阅

订阅专栏

text2img

20 篇文章 4 订阅

订阅专栏

代码

Abstract

尽管⽣成对抗⽹络(GAN)取得了成功，但它们的训练仍⾯临⼏个众所周知的问题，包括模式崩溃和学习⼀组不相连的流形的困难。在本⽂中，我们将学习复杂⾼维分布、⽀持不同数据样本的挑战性任务分解为简单的⼦任务。我们的解决⽅案依赖于设计⼀个分区器 partitioner，将空间分成更⼩的区域，每个区域都有⼀个更简单的分布，并为每个分区训练⼀个不同的⽣成器。这是在⽆监督的⽅式下完成的，不需要任何标签。我们为空间分区器制定了两个理想的标准，以帮助训练我们的混合⽣成器: 1)⽣成连接的分区，2)提供分区和数据样本之间的距离代理，以及减⼩该距离的⽅向。制定这些标准是为了避免从不存在数据密度的地⽅⽣产样本，并通过向⽣成器提供额外的指导来促进训练。我们为空间分配器发展理论约束以满⾜上述标准。在理论分析的指导下，我们为空间分割器设计了⼀个有效的神经架构，以经验保证这些条件。在各种标准基准上的实验结果表明，所提出的⽆监督模型优于最近的⼏种⽅法。

1. Introduction

⽣成对抗⽹络[20]在学习观测样本的基本分布⽅⾯取得了显著的成功。然⽽，它们的训练仍然是不稳定的和具有挑战性的，特别是当感兴趣的数据分布是多模态时。这⼀点尤其重要，因为经验和理论证据都表明，真实数据也符合这种分布。
其中⼀个主要问题是模式崩溃 mode collapse，⽣成器⽆法捕获数据的全部多样性。另⼀个尚未充分探讨的问题是模式连接问题[36,70] mode connecting problem。当GAN从真实数据不存在的空间部分⽣成样本时，这种现象就会发⽣，这是由于使⽤连续⽣成器来近似⼀个⽀持断开的分布造成的。此外，由于鉴别器提供的不可靠梯度，gan也很难训练。
我们缓解上述问题的解决⽅案是引⼊⼀个⽆监督的空间分区器，并为每个分区训练不同的⽣成器。图1演示了来⾃⼏个推断分区的实际示例和⽣成示例。
在这里插入图片描述

有多个生成器，专注于分布的不同部分/模式，减少了丢失一个模式的机会。这也减少了模式连接，因为生成器的混合不再被限制为一个连续的函数。在这种情况下，一个有效的空间分区器应该将断开连接的数据流形放在不同的分区中。因此，假设语义上相似的图像在相同的连接中我们使用对比学习方法来学习图像的语义表示，并使用这些嵌入对空间进行划分.
我们证明了空间分区器可以用来定义数据空间中的点和分区之间的距离。这个距离的梯度可以用来鼓励每个生成器专注于它相应的区域，通过提供⼀个⽅向来引导它。换句话说，通过在生成器的样本远离其分区时惩罚它，空间分区器可以将⽣成器引导到其指定的区域。当鉴别器不提供可靠的梯度时，我们的分区器指南特别有用，因为它可以引导生成器向正确的方向前进。
然而，对于一个可靠的指南 guide ，距离函数必须遵循一定的特征，这是具有挑战性的实现。例如，为了避免误导GAN的训练，距离在划分之外不应该有局部最优值。在第4.2节中，我们制定了一个理想度量的充分理论条件，并通过对空间分区器的结构施加约束来实现这些条件。这还保证了数据空间中的连接分区，从⽽进⼀步减少了作为副产品的模式连接。
我们在StackedMNIST [45, 46, 69]， CIFAR-10 [39]， STL-10[12]和ImageNet[63]上进⾏了综合实验，⽽不揭示类标签给我们的模型的。我们表明，我们的⽅法，Partition-Guided Mixture of GAN(PGMGAN) ，成功地恢复了所有模式，并取得了更⾼的Inception Score (IS)[66]和Frechet Inception Distance(FID)[26]⽐⼴泛的监督和⾮监督⽅法更⾼

贡献

在这里插入图片描述

2. Mode connecting problem

【假设数据分布⽀持在⼀组嵌⼊在⾼维空间中的不连通流形上。由于连续函数保持了空间连通性[35]，因此，如果把连续函数(Gθ)应⽤到⼀个有连通⽀点的随机变量上，就不可能得到这个分布的精确近似。】此外，如果我们将Gθ限制在c-Lipschitz函数类中，则真密度与近似密度之间的距离将始终⼤于某⼀正值。事实上，⽣成器要么必须丢弃⼀些数据流形，要么必须连接这些流形。前者可以看作是⼀种模态崩溃的形式，⽽后者则称为模态连接问题。
下⾯的定理正式地描述了上述状态，并提供了真密度和估计密度之间总变差距离的下界a lower bound for the total variation distance between the true and estimated densities。
在这里插入图片描述
根据定理1，当Gθ为Lipschitz函数时，估计密度与数据分布的距离不会收敛到零。值得注意的是，这种假设在⼤多数神经结构的实践中是成⽴的，因为它们是简单的Lipschitz函数的组合。此外，⼤多数最先进的GAN结构(例如BigGAN[5]或SAGAN[81])在它们的⽣成器中使⽤光谱归⼀化 spectral normalization来稳定训练，这促进了Lipschitzness。

3. Related work

Mode connecting

为了避免连接模式，必须使用潜在变量latent variable z with a disconnected support，或者允许Gθ是不连续函数间断生成器法 discontinuous generator method 主要是通过学习多个生成器实现的，主要的动机是弥补模式的崩溃，这也减少了模式的连接。

其他的一些前人研究略。。。

4. Method

本节⾸先描述如何在分区空间上使⽤⽣成器/鉴别器的混合和这个⽬标所需的统⼀⽬标函数来训练gan。然后我们解释我们的可微空间分割器以及我们如何引导⽣成器⾛向正确的区域。我们通过连接到使⽤辅助分类器的监督gan来结束本节[56,59]
在这里插入图片描述
我们通过将我们的混合⽣成器的分布与以下定理中的数据分布之间的Jensen Shannon距离(JSD)联系起来，来激发这个⽬标。

4.1. Partition GAN

Space Partitioner:
根据定理1，理想的空间分区器应该将不相交的数据流形放置在不同的分区中，以避免模式连接(从⽽导致模式崩溃)。假定语义上相似的数据点位于相同的流形上也是合理的。因此，我们使⽤语义嵌⼊ semantic embeddings 来训练空间分块器。
我们通过两个步骤实现这个⽬标:
1)学习每个数据点的⽆监督表示，它对不改变语义的转换是不变的。
2)根据这些特征训练⼀个分区器，将嵌⼊相似的数据点放在同⼀个分区中。

Learning representations:
我们遵循⾃我监督⽂献[7,8,24]来构建图像表征。
这些⽅法通常通过最⼤化同⼀场景增强视图(如随机裁剪、颜⾊失真、旋转等)之间的⼀致性，同时最⼩化来⾃不同场景的视图的⼀致性来训练⽹络。为此，他们优化了以下对比损失 contrastive loss :
在这里插入图片描述
其中h为图像x的嵌⼊，(i, j)为正数对(即同⼀图像的两个视图)，(i, k)为两个不同图像的负数对。我们将这个网络称为借口，这意味着正在解决的任务并不是真正感兴趣的，⽽是仅仅为了学习合适的数据表示⽽解决的。

Learning partitions :
要执⾏分区步骤，可以直接对这些语义表示应⽤K-means。然⽽，这可能导致退化的集群 degenerated clusters，其中⼀个分区包含⼤部分数据[6,74]。受Van Gansbek等⼈[74]的启发，为了减轻这⼀挑战，我们⾸先基于数据点的表示h构造了⼀个k-最近邻图 在这里插入图片描述
。然后，我们训练了⼀个⾮监督模型，该模型促使连接点驻留在同⼀簇中，⽽断开点驻留在不同的簇中。更具体地说，我们训练⼀个 空间分配器 space partitioner。

第一项激励G中的邻居有相似的类概率向量class probability vectors，如果分类器将不同的概率向量赋给相邻的两个点，则使用对数函数对分类器进行惩罚。最后一项旨在通过激励平均聚类概率向量与均匀分布相似来避免将所有数据点置于同一类别中。中间项的目的是提升每个数据点的概率向量，使其显著地有利于一个类而不是另一个类。这样，我们可以对每个数据点的cluster id更有信心。此外，如果类的平均概率有一个齐次均值(因为最后一项)，我们可以预期每个类中的数据点的数量不会退化。
为了有效地训练S，在准确性和计算复杂度方面，我们使用已经训练过的无监督特征网络初始化S。更具体地说,: 在这里插入图片描述

4.2. Partition-Guided GAN

在本节中，我们将介绍guide的设计及其特性。如前所述，我们希望引导每个生成器Gi到它指定的区域Ai，通过惩罚它当前生成的样本离Ai越远。
在这里插入图片描述

从直觉上看，Gi需要将其样本移向分区Ai，以最小化新添加的项。幸运的是，给定Ri(.)对其输入和性质1的可微性，Ri可以为Gi提供实现该目标的方向。

同样值得注意的是，只要Gi的样本在Ai内，Ri就不应该干扰生成器/鉴别器。否则，这可能导致第二个项偏袒Ai的部分，与判别器相冲突。性质2保证了Di负责学习pdata在Ai上的分布。我们还使用这个度量来确保每个训练过的生成器Gi只从其区域内抽取样本，只接受Ri(x)等于零的样本。

剩下要考虑的关键点是Gi被愚弄而从Ai之外生成样本的可能性，因为它落在Ri(x)的局部最优值。在本节的其余部分中，我们将解释空间分区器S的体系结构设计如何避免这个问题。此外，它还将保证Ri提供的梯度的范数始终高于某一阈值。

Avoiding local optima
我们可以很容易地获得一个没有局部优化的guide Ri，如果实现一个良好的性能对分割器不重要的话。例如，一个简单的单线性层神经网络，如S，就可以做到这一点。主要的挑战来自于我们需要在分区(准确地将不同的流形放在不同的分区中)上表现良好，这通常需要深度神经网络，同时避免局部最优。我们首先找到一个不存在局部优化的充分条件，然后试图通过修改ResNet[25]架构来强制执行这个条件，从而实现这个目标。
以下定理说明了充分条件:
在这里插入图片描述

在这里插入图片描述

4.3. Connection to supervised GANs

在这里插入图片描述
它同时学习辅助分类器C和D/G。其他的工作也尝试使用预先训练的分类器[56]对生成器进行微调。a项与典型的监督条件GAN相关，b项激励分类器更好地分类真实数据。c项鼓励G为每个类生成图像，以便分类器以高概率认为它们属于那个类。

作者鼓励添加这一项，因为它可以为生成器G(·|Y)提供进一步的梯度，以从正确的区域P_X(·|Y)生成样本。然而，最近的研究[18,68]表明，这倾向于促使G将靠近分类器决策边界的数据点下采样。它还被证明减少了样本的多样性，并且当类共享重叠区域[18]时表现不佳。

我们的空间分割器的作用类似于这些gan中的分类器，术语c与我们提出的指南有一些相似之处。相比之下，我们的新设计 R_i(·)享受了基于分类器的方法的好处(为生成器提供梯度)，但减轻了它的问题。主要是因为1)它为生成器提供了梯度，以便从其区域生成样本。同时，由于没有局部优化(只有全局优化)，它不会冒生成器陷入不该陷入的地方的风险。2)在区域内，我们的向导不会误导生成器偏向某些样本。3)由于空间分区器使用分区标签作为“类”id，因此不存在类重叠的问题，自然也不需要监督标签。
我们相信我们的修正损失的构造也可以应用于监督制度，以避免将数据样本远离边界。此外，将该方法与有监督的方法相结合，可以将每个标签本身分割成若干段。我们把这个修改的调查留给未来的研究。

5. Experiments

在这里插入图片描述

https://github.com/alisadeghian/PGMGAN

6. Conclusion

我们引入了一个可微空间划分器来解决GAN的训练问题，包括模式连接和模式崩溃。这背后的直觉是双重的。第一个原因是高效的分区使每个区域上的分布更简单，使其逼近更容易。这样，我们可以从整体上有一个更好的理解，既可以缓解模式崩溃，又可以缓解连接问题。第二个直觉是空间分割器可以提供额外的梯度，帮助鉴别器训练生成器的混合。当鉴别器的梯度不可靠时，这尤其有帮助。然而，有理论保证这种额外的梯度不会以任何方式恶化GAN的训练收敛性是至关重要的。我们确定了空间分割器(在功能空间中)的一个充分的理论条件，并通过空间分割器的一个架构设计来经验地认识这个条件。我们在自然图像上的实验表明，该方法在FID和IS两方面都改进了现有的方法。对于未来的工作，我们希望研究使用空间分区器进行监督机制，其中每个数据标签都有自己的分区。我们希望探索的另一个方向是设计一个更灵活的框架为空间分隔器，使其Guide function 不具有局部最优值。