GANs和低效映射

最新推荐文章于 2022-04-20 07:27:25 发布

磐创 AI

最新推荐文章于 2022-04-20 07:27:25 发布

阅读量878

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/fendouaini/article/details/104466029

版权

机器学习专栏收录该内容

158 篇文章 24 订阅

订阅专栏

生成对抗网络(GANs)被誉为生成艺术领域的下一纪元，这是有充分理由的。新技术一直是艺术的驱动因素，从颜料的发明到照相机再到Photoshop-GAN是自然而然的。例如，考虑下面的图片，由埃尔加马勒发表在2017年的论文。

如果你不熟悉GAN，那么本文将简要介绍训练过程。简而言之，GAN将随机噪声作为输入，并且产生的输出与真实数据是无法区分的(如果训练顺利的话)，其中真实数据几乎可以是任何东西(一组抽象绘画，名人头像照片，手写数字等) )。

在GAN文献中，与之前的变分自编码器一样，输入值常常与输出没有明确的关系，这是一个得到充分证明的问题。正如我前面提到的，GANs接受随机噪声(通常是100个随机的、正态分布的值)作为输入，每个随机数都可以看作是输出的控制杠杆。理想情况下，每个杠杆都对应一个特征，例如在生成人脸的情况下，将有一个杠杆用于微笑和皱眉，一个用于肤色，一个用于头发长度，等等;在艺术创作时这种情况很少发生，因此使用GANs进行艺术创作就成了一种挑战。作为这个问题的可视化，考虑以下动画:

在这里，我使用16维的空间在MNIST手写数字数据集上训练了一个GAN。我使用这个GAN生成了一个随机样本，然后说明当一个输入值被调整而其他值被固定在适当的位置时，输出是如何变化的。正如你所看到的，这两种杠杆都不会以人类可能觉得直观或有用的方式改变输出;第一个杠杆控制数字是7还是9以及笔画角度，而第二个杠杆控制数字是7还是9以及笔画厚度。可以想象生成“手写”数字的理想工具是什么样子的:第一个控制杆控制要生成的数字，从0到9;第二杠杆控制冲程的厚度;第三个控制笔画角度;第四，循环，你懂的。相反，我们看到这些特征中的一些是由一个杠杆控制的，而这些特征中的一个是由多个杠杆控制的。想象一下，如果Photoshop的旋转工具也通过色轮旋转图像的色调，那该有多令人沮丧!

这里的一个明显的问题是，这使得生成图像的接口效率很低，而且非常混乱。然而，还有另一个不太明显的问题:输入和输出之间扭曲而复杂的关系也妨碍了训练并限制了输出的整体质量。

问题一：螺旋

正如我在本文中所解释的，GAN本质上是用于对某些数据分布建模的工具，无论是正态分布还是人脸分布。因此，GAN是从某些潜在空间到某些样本空间的转换或映射。当GAN作为学生全神贯注于诸如图像生成之类的高维问题时，这一点常常被忽视。在这里，我打算使用简单的二维问题来演示低效的映射问题，其中第一个问题在此处进行了说明：

这是一个相当简单的函数，它将输入空间中的x轴映射到样本空间中沿着螺旋的位置(角度和半径)，并将y轴映射到螺旋内的横向位置。出于可视化的目的，x轴也映射到色相，y轴也映射到值(彩色与黑色)。为了进一步阐明此功能，请考虑以下动画：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ieyY5MJz-1582722801728)(http://qiniu.aihubs.net/1_GPA8YvfHxPPJXoPjphn5_g.gif)]

因此，问题是要训练一个能够从这种螺旋分布中采样点的GAN，这样就很难分辨出GAN的批次和真实函数的批次。注意，GAN不必学习原始映射。只要输出分布相同，任何映射都可以。

结果：

使用典型的GAN训练技术对GAN进行了60000次步骤的训练(代码在本文结尾)。如你所见，GAN成功学习了螺旋分布。但是，它有几个问题：

它比目标函数要瘦很多。尽管螺旋的某些部分具有一定的宽度，但GAN实质上已将这种分布减小为二维空间中的一维流形。
输出混乱。注意分散在螺旋形负空间中的点。这些永远不会在目标函数中发生，那么它们在做什么？
注意点(0.60，-0.63)和(0.45，0.17)上的奇怪伪像; 这些不连续性会在分布中造成漏洞。
将GAN产生的螺旋中的色相和值的分布与原始函数中的相比较(图3)；它们的顺序性不明显，并且在潜在空间(控制杆)和输出之间没有明确的关系。

在此动画中说明了所有这四个问题：

正如你所看到的，这四个问题实际上是同一个问题。对比图6和图4，我们可以看到GAN学会了一个低效的映射。首先，考虑潜空间右上角的撕裂;撕裂上方的潜在空间区域被映射到螺旋的最外层，而紧挨着撕裂下方的区域被映射到螺旋的中心。这种撕裂行为解释了混乱(问题2);位于裂缝上的任何一点都映射到这两个极端之间的某个地方，通常落在螺旋的负空间中。它也解释了(0.60，-0.63)处的伪影(问题3)，因为在这个区域生成的点是从潜在空间的远处点映射而来的，这也是为什么颜色的色调和值也没有对齐(第4期)。最后，学习分布(问题1)的瘦性是由映射的复杂性来解释的;分布的大部分方差来自于沿螺旋的位置，在螺旋宽度内的位置不那么显著。因此，Gan首先学会了如何创造螺旋。每当它试图扩展时，映射的复杂性就会导致其他一些区域中断。Gan基本上把自己困在了一个无法逃脱的局部极小值中。如果你很好奇，以下是GAN在训练时的样子:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2qUbzCCg-1582722801730)(http://qiniu.aihubs.net/1_m3mAqofrq5dVsBD3vseQBw.gif)]

图显示GAN迅速了解了最外层和最内层区域的不兼容映射，并且分布的剩余部分不得不在它们之间进行协调。

问题二：八个高斯

这个函数将2.5维空间映射到2维空间。潜在空间的前两个维度是独立的、标准的正态分布的值。剩下的“0.5”是一个包含8个可能值的离散维度，编码为长度为8的向量，其中一个值被设置为1，而其他值为0。在图8中，通过在x轴和y轴上绘制两个连续维度来表示潜在空间中的随机样本，而用颜色表示离散维度。目标函数将这个潜在空间映射到样本空间，方法是将正态分布重新缩小0.2倍，并根据潜在维度的值将其移动到8个点之一。过程如下: