【2017CS231n】第十三讲：生成模型（PixelRNN/PixelCNN，变分自编码器，生成对抗网络）

最新推荐文章于 2025-05-24 15:13:03 发布

金刚哥葫芦娃

最新推荐文章于 2025-05-24 15:13:03 发布

阅读量2.3w

点赞数 16

分类专栏：人工智能

本文链接：https://blog.csdn.net/poulang5786/article/details/80766498

版权

人工智能专栏收录该内容

17 篇文章

订阅专栏

一.有监督学习与无监督学习

有监督学习我们都很熟悉了，我们有数据x和标签y，我们在有监督学习中学习到一个函数可以将数据x映射到标签y，标签可以有很多形式。典型的有监督学习有：分类问题中输入一张图片，输出图片的分类；目标检测中输入一张图片，输出目标物体的边框；语义分割中，给每个像素都打上标签。下面说一下无监督学习。

1.1无监督学习

无监督学习在我们只有一些没有标签的训练数据的情况下，学习数据中隐含的结构。典型的无监督学习有一下几种：

1.聚类

聚类：聚类是找到数据的分组，组内数据在某种度量方式下是相似的。

2.降维

降维：找出一些轴，在这些轴上训练数据的方差最大。这些轴就是数据内潜在的结构。我们可以用这些轴来减少数据维度，数据在每个保留下来的维度上都有很大的方差。

3.学习数据的特征表达

4.密度估计

密度估计：估计数据的内在分布情况，在上方有一些一维的点，我们用一个高斯函数来拟合这一密度分布情况。

1.2有监督学习与无监督学习的比较

有监督学习中我们想从有标签数据中学习到一个能映射x到y的关系的函数；无监督学习使用无标签数据，目的是学习数据中隐含的结构（分组，方差，密度估计）。

二.生成模型

生成模型：给定训练数据，从相同的数据分布中生成新的样本，我们有一些训练数据从某种分布p-data中生成，我们想从中学习到一个模型p-model来以相同的分布生成样本。

从数据分布中创造出我们想要的真实样本。左边为生成的图片，中间生成的人脸，还可以做超分辨率或者着色之类的任务。

生成模型可以做两大类任务，显示密度模型和隐式模型，往下分又可以分成很多子类。今天主要讨论三种模型：PixelRNN/CNN，变分自动编码器属于显示密度模型，生成对抗网络（GAN）属于隐式密度估计模型。

三.PixelCNN/PixelRNN

PixelRNN和PixelCNN都属于全可见信念网络，要做的是对一个密度分布显示建模。我们有图像数据x，想对该图像的概率分布或者似然p(x)建模，我们使用链式法则将这一似然分解为一维分布的乘积，我们有每个像素xi的条件概率，其条件是给定所有下标小于i的像素（x1到xi-1），这时图像中所有像素的概率或联合概率就是所有这些像素点似然的乘积。一旦定义好这些似然，为了训练好这一模型，我们只需要在该定义下最大化我们的训练数据的似然。

右边的像素值概率分布，也就是给定所有在xi之前的像素值条件的条件概率p(xi)，下面我们会用神经网络表达这一概率分布的复杂函数。

从左上角一个一个生成像素，生成顺序为箭头所指顺序，每一个对之前像素的依赖关系都通过RNN来建模。

缺点：顺序生成的，速度会很慢。

从图像拐角处生成整个图像，区别在于现在使用CNN来对所有依赖关系建模。

现在对环境区域（图示那个指定像素点的附近区域）上使用CNN，取待生成像素点周围的像素，把他们传递给CNN用来生成下一个像素值，每一个像素位置都有一个神经网络输出，该输出将会是像素的softmax损失值，我们通过最大化训练样本图像的似然来训练模型，在训练的时候取一张训练图像来执行生成过程，每个像素位置都有正确的标注值，即训练图片在该位置的像素值，该值也是我们希望模型输出的值。

PixelRNN和PixelCNN能显式地计算似然p(x)，是一种可优化的显式密度模型，该方法给出了一个很好的评估度量，可以通过计算的数据的似然来度量出你的生成样本有多好。

四.变分自编码器

PixelCNN定义了一个易于处理的密度函数，我们可以直接优化训练数据的似然；对于变分自编码器我们将定义一个不易处理的密度函数，现在我们通过附加的隐变量z对密度函数进行建模。

我们数据的似然p(x)是等式右边的积分形式，即对所有可能的z值取期望，我们无法直接优化它，我们只能找出一个似然函数的下界然后再对该下界进行优化。

4.1自编码器

    变分自编码器与自动编码器的无监督模型相关。
    我们不通过自动编码器来生成数据，它是一种利用无标签数据来学习低维特征的无监督学习。
    输入数据x和特征z，接下来我们有一个编码器进行映射，来实现从输入数据x到特征z的映射。编码器可以有多种形式，常用的是神经网络。最先提出的是非线性层的线性组合，又有了深层的全连接网络，又出现了CNN，我们取得输入数据x然后将其映射到某些特征z，我们再将z映射到比x更小的维度上，由此可以实现降维。

对z进行降维是为了表示x中最重要的特征。

如何学习这样的特征表示？
自动编码器将该模型训练成一个能够用来重构原始数据的模型，我们用编码器将输入数据映射到低维的特征z（也就是编码器网络的输出），同时我们想获得基于这些数据得到的特征，然后用第二个网络也就是解码器输出一些跟x有相同维度并和x相似的东西，也就是重构原始数据。

对于解码器，我们一般使用和编码器相同类型的网络（通常与编码器对称）。

整个流程：取得输入数据，把它传给编码器网络（比如一个四层的卷积网络），获取输入数据的特征，把特征传给解码器（四层的解卷积网络），在解码器末端获得重构的数据。

为了能够重构输入数据，我们使用L2损失函数，让输入数据中的像素与重构数据中的像素相同。

训练好网络后，我们去掉解码器。

使用训练好的编码器实现特征映射，通过编码器得到输入数据的特征，编码器顶部有一个分类器，如果是分类问题我们可以用它来输出一个类标签，在这里使用了外部标签和标准的损失函数如softmax。

我们可以用很多无标签数据来学习到很多普适特征，可以用学习到的特征来初始化一个监督学习问题，因为在监督学习的时候可能只有很少的有标签训练数据，少量的数据很难训练模型，可能会出现过拟合等其他一些问题，通过使用上面得到的特征可以很好的初始化网络。

自动编码器重构数据，学习数据特征，初始化一个监督模型的能力。这些学习到的特征具有能捕捉训练数据中蕴含的变化因素的能力。我们获得了一个含有训练数据中变化因子的隐变量z。

4.2变分自编码器

    通过向自编码器加入随机因子获得的一种模型，我们能从该模型中采样从而生成新的数据。
    我们有训练数据x（i的范围从1到N），数据x是从某种不可观测的隐式表征z中生成的。例如我们想要生成微笑的人脸，z代表的就是眉毛的位置，嘴角上扬的弧度。
    生成过程：从z的先验分布中采样，对于每种属性，我们都假设一个它应该是一个怎样的分布。高斯分布就是一个对z中每个元素的一种自然的先验假设，同时我们会通过从在给定z的条件下，x的条件概率分布p(x|z)中采样。先对z采样，也就是对每个隐变量采样，接下来对图像x采样。

对于上述采样过程，真实的参数是Θ*，我们有关于先验假设和条件概率分布的参数，我们的目的在于获得一个生成式模型，从而利用他来生成新的数据，真实参数中的这些参数是我们想要估计并得出的。

如何表述上述模型：对上述过程建模，选一个简单的关于z的先验分布，例如高斯分布，对于给定z的x的条件概率分布p(x|z)很复杂，所以我们选择用神经网络来对p(x|z)进行建模。

    之后调用解码器网络，选取隐式表征，并将其解码为它表示的图像。训练一个生成模型，学习到一个对于这些参数的估计。
    如何训练模型？最大化训练数据的似然函数来寻找模型参数，在已经给定隐变量z的情况下，我们需要写出x的分布p并对所有可能的z值取期望，因为z值是连续的所以表达式是一个积分。
    直接求导来求最大化的似然，过程会很不好解。

数据似然项p(x)，第一项是z的分布p(z)，这里将它简单地设定为高斯分布，p(x|z)指定一个神经网络解码器，这样一来任意给定一个z我们就能获得p(x|z)也就是神经网络的输出。但是计算每一个z对应的p(x|z)很困难，所以无法计算该积分。
数据的似然函数是难解的，导致了模型的其他项，后验密度分布也就是p(z|x)也是难解的。

我们无法直接优化似然。解决方法是，在使用神经网络解码器来定义一个对p(x|z)建模神经网络的同时，额外定义一个编码器q(z|x)，将输入x编码为z，从而得到似然p(z|x)。也就是说我们定义该网络来估计出p(z|x)，这个后验密度分布项仍然是难解的，我们用该附加网络来估计该后验分布，这将使我们得到一个数据似然的下界，该下界易解也能优化。

在变分自编码器中我们想得到一个生成数据的概率模型，将输入数据x送入编码器得到一些特征z，然后通过解码器网络把z映射到图像x。我们这里有编码器网络和解码器网络，将一切参数随机化。参数是Φ的编码器网络q(z|x)输出一个均值和一个对角协方差矩阵；解码器网络输入z，输出均值和关于x的对角协方差矩阵。为了得到给定x下的z和给定z下的x，我们会从这些分布（p和q）中采样，现在我们的编码器和解码器网络所给出的分别是z和x的条件概率分布，并从这些分布中采样从而获得值。
编码器网路也是一种识别或推断网络，因为是给定x下对隐式表征z的推断；解码器网络执行生成过程，所以也叫生成网络。

如何得到下界：第一项是对所有采样的z取期望，z是x经过编码器网络采样得到，对z采样然后再求所有z对应的p(x|z)。让p(x|z)变大，就是最大限度地重构数据。第二项是让KL的散度变小，让我们的近似后验分布和先验分布变得相似，意味着我们想让隐变量z遵循我们期望的分布类型。

    得到了下界后，现在把所有东西整合到一起，过一遍如何训练自动编码器。
    公式是我们要优化及最大化的下界，前向传播按如上流程处理，对输入数据x，让小批量的数据传递经过编码器网络的到q(z|x)，通过q(z|x)来计算KL项，然后根据给定x的z分布对z进行采样，由此获得了隐变量的样本，这些样本可以根据x推断获得；然后把z传递给第二个解码器网络，通过解码器网络x在给定z的条件下的两个参数，均值和协方差，最终可以在给定z的条件下从这个分布中采样得到x。
    训练时需要获得该分布，损失项是给定z条件下对训练像素值取对数，损失函数要做的是最大化被重构的原始输入数据的似然；对于每一个小批量的输入我们都计算这一个前向传播过程，取得所有我们需要的项，他们都是可微分的，接下来把他们全部反向传播回去并获得梯度，不断更新我们的参数，包括生成器和解码器网络的参数Θ和Φ从而最大化训练数据的似然。

训练好变分自编码器，当生成数据时只需要用解码器网络，我们在训练阶段就对z采样，而不用从后验分布中采样，在生成阶段会从真实的生成过程中采样。先从设定好的先验分布中采样，接下来对数据x采样。
在本例中通过在MNIST数据集上训练VAE，我们可以生成这些手写数字样本，我们用z表示隐变量，因为是从先验分布的不同部分采样，所以我们可以通过改变z来获得不同的可解释的意义。这里可以看到一个关于二维z的数据流形。如果我们有一个二维的z然后我们让z在某个区间内变化，比如该分布的百分比区间，接下来让z1和z2逐渐变化，从这幅图中可以看到z1和z2的组合所生成的图像，它会在所有这些不同的数字之间光滑地过渡变化。

我们对z的先验假设是对角的，这样做是为了促使它成为独立的隐变量，这样它才能编码具有可解释性的变量。因此我们就有了z的不同维度，他们编码了不同的具有可解释性的变量。
在人脸数据上训练的模型中，随着我们改变z1，从上往下看笑脸的程度在逐渐改变，从最上面的眉头紧锁到下面大的笑脸；接下来改变z2，从左往右看发现人脸的朝向在变化，从一个方向一直向另一个方向变化。

z同时也是很好的特征表示，因为z编码了这些不同的可解释语义的信息是多少。这样我们就可以利用q(z|x)也就是我们训练好的编码器，我们给他一个输入，将图像x映射到z，并把z用作下游任务的特征，比如监督学习，分类任务。

    VAE是在原来的自编码器上加了随机成分，那么在使用VAE的时候我们不是直接取得确定的输入x然后获得特征z最后再重构x，而是采用随机分布和采样的思想，这样我们就能生成数据。
    为了训练模型VAEs，我们定义了一个难解的密度分布，我们推导出一个下界然后优化下界，下界是变化的，“变分”指的是用近似来解决这些难解的表达式，这是模型被称为变分自动编码器的原因。
    VAEs优点：VAEs就生成式模型来说是一种有据可循的方法，它使得查询推断称为可能，如此一来便能够推断出像q(z|x)这样的分布，这些东西对其他任务来说会是很有用的特征表征。

五.生成对抗网络

我们之前的PixelCNN和PixelRNN定义了一个易于处理的密度函数，通过密度函数优化训练数据的似然；VAEs有一个额外定义的隐变量z，有了z以后获得了很多的有利性质但是我们也有了一个难解的密度函数，对于该函数我们不能直接优化，我们推到了一个似然函数的下界，然后对它进行优化。

现在我们放弃显式地对密度函数建模，我们想要得到的是从分布中采样并获得质量良好的样本。GANs中不再在显式的密度函数上花费精力，而是采用一个博弈论的方法，并且模型将会习得从训练分布中生成数据，而这一实现是基于一对博弈玩家。

在GAN的配置中，我们真正想要的是从一个复杂的高维训练分布中采样，从这样的分布中生成样本，但是没有直接的来方法实现。我们的解决方法是从一个简单分布中采样，比如符合高斯分布的噪声，然后我们学习一个从这些简单分布转换到我们想要的训练分布的一个变换。那么用什么来表达这一复杂的变换？当然是神经网络。
接下来要做的是取得一些具有某一指定维度的噪声向量作为输入，然后把该向量传给一个生成器网络，之后我们要从训练分布中采样并将结果直接作为输出。对于每一个随机噪声输入，我们都想让它和来自训练分布的样本一一对应。

训练过程看做两个玩家博弈的过程，一个玩家是生成器网络，一个是判别器网络。生成器网络作为玩家1会试图骗过判别器网络，欺骗的方式是生成一些看起来十分逼真的图像；同时第二个玩家判别器网络，试图把真实图片和虚假图片区别开，判别器试图正确指出哪些样本是生成器网络生成的。
我们将随机噪声输入到生成器网络，生成器网络将会生成图片，我们称之为来自生成器的伪样本，然后我们从训练集中取一些真实图片，判别器网络能够对每个图片样本做出正确的区分，这是真实样本还是伪样本。

我们的想法是，我们想训练一个性能良好的判别器，如果它能很好的区分真实样本和伪样本，同时如果我们的生成器能够生成一些伪造样本，而这些伪造样本能够很好的骗过判别器，那么我们就获得了一个很好的生成模型，我们可以很好的生成一些训练集中的样本。

现在我们有两个玩家，通过一个mini max博弈公式联合训练这两个网络，该mini max目标函数就是如图所示的公式，我们的目标是让目标函数在Θg上取得最小值，Θg是指生成器网络g的参数；同时要在Θd上取得最大值，Θg指的是判别器网络的参数。
公式中各项的含义：第一项是在训练数据的分布上log(D(x))的期望，log(D(x))是判别器网络在输入为真实数据（训练数据）时的输出，该输出是真实数据从分布p-data中采样的似然概率；第二项是对z取期望，z是从p(z)中采样获得的，这意味着从生成器网络中采样，同时D(G(z))这一项代表了以生成的伪数据为输入判别器网路的输出，也就是判别器网络对于生成网络生成的数据给出的判定结果。

对该过程的解释：我们的判别器的目的是最大化目标函数也就是在Θd上取最大值，这样一来D(x)就会接近1，也就是使判别结果接近真，因而该值对于真实数据应该相当高，这样一来D(G(z))的值也就是判别器对伪造数据输出就会相应减小，我们希望这一值接近于0。因此如果我们能最大化这一结果，就意味着判别器能够很好的区别真实数据和伪造数据。对于生成器来说，我们希望它最小化该目标函数，也就是让D(G(z))接近1，如果D(G(z))接近1，那么用1减去它就会很小，判别器网络就会把伪造数据视为真实数据，也就意味着我们的生成器在生成真实样本。

    这是一个无监督学习，所以不会人工给每个图片打上标签，但是生成器生成的图片我们标签为0或假，我们的训练集都是真实的图片，被标记为1或真。有了这些以后，对判别器的损失函数而言就会使用这些信息，判别器要做的就是对生成器生成的图片输出0，而对真实图片输出1，这其中没有外部标签。
    如何训练：首先对判别器进行梯度上升，学习到θd来最大化该目标函数；对生成器进行梯度下降，θg进行梯度下降最小化目标函数，此时目标函数只取右边这一项，因为只有这一项与θg有关。
    交替训练生成器和判别器，每次迭代生成器都试图骗过判别器。

在实际中，我们定义的生成器目标函数并不能很好地工作，原因在于损失函数的函数空间，关于D(G(z))的损失函数的函数空间，1-D(G(z))也就是我们期望对于生成器能够最小化的项，它的函数图像如图所示，我们想要最小化该函数。该损失函数越向右斜率越大，D(G(z))越接近1该函数的斜率越高，这意味着当我们的生成器表现很好时，我们才能获得最大梯度，当生成器生成的样本不怎么好时，这时候的梯度相对平坦。这意味着梯度信号主要受到采样良好的区域支配，我们想要的是从训练样本中学到知识。为了提高学习效率，我们接下来要做的是针对梯度定义一个不同的目标函数，去做梯度上升算法。我们不再最小化判别器正确的概率，而是进行最大化判别器出错的概率，这样就会产生一个关于最大化的目标函数，也就是最大化log(D(G(z)))，现在式子前面有一个负号，可以看出函数图像是左下角函数图像的反转。现在我们可以在生成样本质量还不是很好的时候获得一个很高的梯度信号。

联合训练两个网络很有挑战，交替训练的方式不可能一次训练两个网络，还有损失函数的函数空间会影响训练的动态过程。

所以如何选择目标函数，从而获得更好的损失函数空间来帮助训练并使其更加平稳。

    完整的GAN训练过程：
    在每一个训练迭代期都先训练判别器网络，然后训练生成器网络。
    对于判别器网络的k个训练步，先从噪声先验分布z中采样得到一个小批量样本，接着从训练数据x中采样获得小批量的真实样本，下面要做的将噪声样本传给生成器网络，并在生成器的输出端获得生成的图像。此时我们有了一个小批量伪造图像和小批量真实图像，我们有这些小批量数据在判别器生进行一次梯度计算，接下来利用梯度信息更新判别器参数，按照以上步骤迭代几次来训练判别器。
    之后训练生成器，在这一步采样获得一个小批量噪声样本，将它传入生成器，对生成器进行反向传播，来优化目标函数。

交替进行上述两个步骤。

之前GAN生成的图片分辨率低不清晰，后来出现了一些研究提升了生成样本的质量。这篇论文给GAN增加了卷积结构，帮助GAN生成质量更好的样本。

论文中使用的卷积结构，噪声向量z做卷积到输出，通过这个卷积结构生成的样本质量提升很大。

观察GAN到底做了什么。取两个不同的噪声向量，在两个向量之间插值，每一行图像都是一种从随机噪声z到另一个随机噪声向量z的插值过程，这些都是平滑插值产生的图像。

更深入分析向量z的含义，可以对这些向量做一些数学运算，图中实验所做的是取得一些女性笑脸，一些淡定的女性脸，一些淡定的男性脸样本。取这三种样本的z向量的平均。然后取女性笑脸的平均向量减去淡定脸女性的平均向量，再加上淡定男性脸的平均向量，我们最后会得到男性的笑脸样本。

17年已经可以生成高质量的图片，还有领域迁移的例子。先获取一些马的图片并训练一个GAN，输入普通马的图片可以输出斑马。图像增强，场景转化（夏天到冬天）。GAN以文本描述来生成一幅图像。

GAN总结：
GAN不使用显式的密度函数，而是利用样本来隐式表达该函数，GAN通过一种博弈的方法来训练，通过两个玩家的博弈从训练数据的分布中学会生成数据。

GAN可以生成目前最好的样本，还可以做很多其他的事情。但是不好训练且不稳定，我们并不是直接优化目标函数，我们要努力地平衡两个网络。

六.总结

讲了生成式模型，讲了三种目前最常用的模型，pixelCNN和pixelRNN他们是显示密度模型，该模型优化的是一个显式的似然函数并产生良好的样本，但是效率很低，它是一个顺序的生成过程。
VAE优化的是一个似然函数的下界，它会产生一个有用的隐式表征，可以用它来进行查询推断，生成的样本也不是特别好。GAN是目前能生成最好样本的模型，但是训练需要技巧且不稳定，查询推断上也有一些问题。

还有一些将模型的优点结合起来做的研究。