Variational AutoEncoder（VAE）变分自编码器

酒酿小圆子～

已于 2023-11-07 11:05:13 修改

阅读量2.5k

点赞数 5

分类专栏：机器学习 & 深度学习文章标签： docker json python

于 2021-11-23 16:52:36 首次发布

本文链接：https://blog.csdn.net/u012856866/article/details/121497294

版权

机器学习 & 深度学习专栏收录该内容

91 篇文章 20 订阅

订阅专栏

本文深入介绍了变分自编码器（VAE）的工作原理，从自编码器的基础开始，讨论了自编码器的局限性和变分推断的概念。VAE通过引入变分推断和重参数技巧，解决了自编码器不能有效生成新样本的问题。文章详细阐述了编码器和解码器的构建，以及损失函数的优化，展示了如何通过近似后验分布来实现连续的潜在空间，并通过标准高斯分布采样生成数据。

摘要由CSDN通过智能技术生成

【本文内容转载自博客】：

无监督学习之VAE——变分自编码器详解
解析Variational AutoEncoder（VAE）
文章目录

一、基础知识回顾

1. latent variable，隐变量或潜在变量，也称为latent code。
A latent variable is a variable that is inferred using models from observed data.
隐变量是指通过模型从观测数据中推断出来的变量。比如，我们将一个输入对象送入一个神经网络的编码层（NN-Encoder），得到的由隐含层输出的向量就可以称作latent variable。

2. Variations，变分法。
（1）在简述变分之前我们应该了解什么是泛函？
回顾下从小到大我们所学习过的函数，它是将一个给定的输入数值x，经过一系列的变化f(x)，从而得到输出数值y。注意这里我们输入的是一个数，输出的也是一个数。那有没有这种情况，如果我们的自变量是一个函数而不是一个数值？最经典的问题便是，给定两个定点A和B，我们从A点可以经过任意一条路径到达B点，求在什么样的路径下使得A点到B点的时间最短？到这里大多数人都有答案了——两点之间直线段最短。像这种输入变量是一个函数，输出变量是一个数值的函数，称为泛函。泛函通俗点理解就是函数的函数。
在这里插入图片描述

针对上图，我门先求出点 $A (x 1, y 1)$ 到点 $B (x 2, y 2)$ 之间任意路径长度的表达式。任取一小段微元 $d s$ ，根据勾股定理我们可以得出： $ds^2= dx^2 + dy^2$ ，其中我们将这条曲线定义为 $y = y (x)$ 。现在我们对函数 $y$ 进行求导，可以得到： $\frac{dy}{dx}$ ，公式变形下就得到： $dy=dx\cdot y'$ ,我们将其带入到第一条公式，然后公式左右两边同时开方，可以得到： $ds=\sqrt{1+(y')^2}dx$ ,到这里我们便求出了一小段微元的长度了。接下来我们只将对 $x 1$ 到 $x 2$ 区间内所有的微元段累加起来便能得到总的路径长度为：

$\int_{x1}^{x2}ds=\int_{x1}^{x2}\sqrt{1+(y')^2}dx$

在上面的式子中， $L$ 便是一个泛函。其中被积函数 $\sqrt{1+(y')^2}$ 我们称为Lagrange Function，即拉格朗日函数 F 。现在我们的任务便是要寻找一个合适的函数 $y (x)$ 使得泛函 $L$ 的取值最小。

（2）变分法便是用于求泛函数的极值。下面就不展开了，有兴趣的可以自行查阅相关资料。这里主要说一点的就是VAE中V是怎么来的，其实只不过是计算的过程中用到了变分法的思想去求解 $L_b$ ，所以就取名叫VAE。

3. Gaussian Mixture Model，高斯混合模型。

生成模型比较主流的三个模型为：隐马尔可夫模型HMM、朴素贝叶斯模型NB和高斯混合模型GMM。这里我们主要介绍下GMM。
在这里插入图片描述

混合模型是一个可以用于表示在总体分布中含有N个子分布的概率模型，它表示了观测数据在总体中的概率分布。利用混合模型计算总体分布概率时我们并不需要知道原始观测数据中子分布的信息。

如上所示，P(x)代表图中黑色的分布曲线。以前学过《Signal Processing》的人都知道，由Fourier Theory可得，任意一个随时间做周期性变化的波，都可以分解为一系列不同频率、不同振幅、不同相位的正弦波。同样地，我们也可以用多个正态分布的叠加去逼近任意一个分布。

4. Conditional Probability：条件概率。

定义两个事件A和时间B，求A和B同时发生的概率：
$P (A, B) = P (A) P (B ∣ A) = P (B) P (A ∣ B)$

5. KL divergence：KL散度又称为KL距离或相对熵，用于衡量两个概率分布之间的距离。

（1）给定真实分布 P(x) 和理论分布 Q(x) ，我们将它们之间的KL散度公式定义为：

$KL(P||Q)=\Sigma P(x)log\frac{P(x)}{Q(x)}=\int{P(x)log\frac{P(x)}{Q(x)}dx}$
（2）KL散度的一些性质：

KL散度是不对称的：因为P到Q的距离不等于Q到P的距离，即KL(P||Q)≠KL(Q||P)。这很容易造成model collapse即模式坍缩——模型倾向于生成一些比较容易骗过判别器的样本，加快模型的收敛，从而导致生成的多样性变差，生成出来的效果也比较差，相当于走捷径。
当且仅当两个分布完全一致时，KL散度等于0。

6. Maximum Likelihood Estimate，MLE：极大似然估计。

要理解什么是极大似然估计，我们要先理解什么是“似然”，它同一般的概率事件又有啥区别？给定一个函数 $P(x|\theta)$ ， $x$ 代表样本点， $\theta$ 表示参数：

（1）当 $\theta$ 为常量， $x$ 为变量时，我们称 $P (x ∣ θ)$ 为关于 $x$ 的概率函数；

（2）当 $x$ 为常量， $\theta$ 为变量时，我们称 $P (x ∣ θ)$ 为关于 $\theta$ 的似然函数；

极大似然估计中样本点的采样都必须满足 i.i.d ，它寻找的是使得样本点 $x$ 能够以最大概率发生的 $\theta$ 的取值。

二、自编码器

2.1 AutoEncoder

在说VAE之前，先来看一下它的前身AutoEncoder(AE)。
AE是非常知名的自编码器，它通过自监督的训练方式，能够从原始特征获得一个潜在的特征编码，实现了自动化的特征工程，并且达到了降维和泛化的目的。

它的网络结构很简单，有编码和解码两个部分组成：

2.2 AE的算法描述

（1）Encoder负责将输入数据进行压缩，将n维输入数据通过Hidden layer压缩成m维的数据（m << n），即通过编码器学习一组参数，得到一个latent code；

（2）Decoder负责还原数据，在需要用到的时候尽可能地以损失最小的方式恢复原始数据。

容易看出，之所以是自监督就是因为网络的target即是input本身，因此不需要额外的标签工作。虽然它由编码器和解码器两个部分组成，但是，显然从自编码器这个名字就可以看出，AE的重点在于编码，即得到这个隐藏层的向量，作为input的潜在特征，这是常见的一种embedding的一种方式。

而解码的结果，基于训练目标，如果损失足够小的话，将会与input相同，从这一点上看解码的值没有任何实际意义，除了通过增加误差来补充平滑一些初始的零值或有些许用处。因为，从输入到输出的整个过程，都是基于已有的训练数据的映射，尽管隐藏层的维度通常比输入层小很多，但隐藏层的概率分布依然只取决于训练数据的分布，这就导致隐藏状态空间的分布并不是连续的，于是如果我们随机生成隐藏层的状态，那么它经过解码将很可能不再具备输入特征的特点，因此想通过解码器来生成数据就有点强模型所难了。

2.3 AE的局限性

AE构造的自编码器模型并不是真正意义上的生成模型。对于一个特定的生成模型，它一般应该满足以下两点：

编码器和解码器是可以独立拆分的（类比GAN的Generator和Discriminator）；
固定维度下任意采样出来的编码，都应该能通过解码器产生一张清晰且真实的图片。

这里解释下第二点。如下图所示，我们用一张全月图和一张半月图去训练一个AE，经过训练，模型能够很好地还原出这两张图片。

在这里插入图片描述

接下来，我们在latent code上中间一点，即两张图片编码点中间处任取一点，将这点交给解码器进行解码，直觉上我们会得到一张介于全月图和半月图之间的图片（比如阴影面积覆盖3/4的样子）。然而，实际当你那这个点去decode的时候你会发现AE还原出来的图片不仅模糊而且还是乱码的。

为什么会出现这种现象？一个直观上的解释是AE的Encoder和Decoder都使用了DNN，DNN是一个非线性的变换过程，因此在latent space上点与点之间transform往往没有规律可循。

如何解决这个问题呢？一个思想就是引入噪声，扩大图片的编码区域，从而能够覆盖到失真的空白编码区。其实说白了就是通过增加输入的多样性从而增强输出的鲁棒性。当我们给输入图片进行编码之前引入一点噪声，使得每张图片的编码点出现在绿色箭头范围内，这样一来所得到的latent space就能覆盖到更多的编码点。此时我们再从中间点抽取去还原便可以得到一个我们比较希望得到的输出，如下所示：
在这里插入图片描述
虽然我们为输入图片增添了一些噪声使得latent space能够覆盖到比较多的区域，但是还是有不少地方没有被覆盖到，比如上图右边黄色的部分因为离得比较远所以就没编码到。因此，我们是不是可以尝试利用更多的噪音，使得对于每一个输入样本，它的编码都能够覆盖到整个编码空间？只不过这里我们需要保证的是，对于源编码附近的编码我们应该给定一个高的概率值，而对于距离原编码点距离较远的，我们应该给定一个低的概率值。没错，总体来说，我们就是要将原先一个单点拉伸到整个编码空间，即将离散的编码点引申为一条连续的接近正态分布的编码曲线，如下所示：

在这里插入图片描述

到这里，我们已经不知不觉到来到了变分自编码器VAE 的核心思想腹地。下面我们将详细地叙述VAE的模型架构。

三、变分自编码器VAE

3.1 Variational AutoEncoder(VAE)

如上所述，正是因为AE的这些局限性，有大佬就对AE的隐藏层做了些改动，得到了VAE。

VAE将经过神经网络编码后的隐藏层假设为一个标准的高斯分布，然后再从这个分布中采样一个特征，再用这个特征进行解码，期望得到与原始输入相同的结果。

VAE损失和AE几乎一样，只是增加编码推断分布与标准高斯分布的KL散度的正则项。显然增加这个正则项的目的就是防止模型退化成普通的AE，因为网络训练时为了尽量减小重构误差，必然使得方差逐渐被降到0，这样便不再会有随机采样噪声，也就变成了普通的AE。

没错，我们先抛开变分，它就是这么简单的一个假设… 仔细想一下，就会觉得妙不可言。

它妙就妙在它为每个输入 $x$ , 生成了一个潜在概率分布 $p (z ∣ x)$ ,然后再从分布中进行随机采样，从而得到了连续完整的潜在空间，解决了AE中无法用于生成的问题。

《论语》有言：“举一隅，不以三隅反，则不复也。” ，给我的启发就是看事物应该不能只看表面，而应该了解其本质规律，从而可以灵活迁移到很多类似场景。聪明人学习当举一反三，那么聪明的神经网络，自然也不能只会怼训练数据。如果我们把原始输入看作是一个表面特征，而其潜在特征便是表面经过抽象之后的类特征，它将比表面特征更具备区分事物的能力，而VAE直接基于拟合了基于已知的潜在概率分布，可以说是进一步的掌握了事物的本质。

3.2 变分推断

读了上面的内容之后，你应该对VAE模型有了一个较为直观和感性的认知。接下来，我们就从变分推断的角度，对VAE进行一个理性的推导。有了上面的基础，再读下面的内容时就会轻松愉快很多。

变分自编码器（VAE）的想法和名字的由来便是变分推断了，那么什么是变分推断呢？
变分推断是MCMC搞不定场景的一种替代算法，它考虑一个贝叶斯推断问题，给定观测变量 $\in \mathbb{R}^k$ 和潜变量 $\in \mathbb{R}^d$ , 其联合概率分布为 $p (z, x) = p (z) p (x ∣ z)$ , 目标是计算后验分布 $p (z ∣ x)$ 。

然后我们可以假设一个变分分布 $q (z)$ 来自分布族 $Q$ ，通过最小化KL散度来近似后验分布 $p (z ∣ x)$ :

$q^* = argmin_{q(z) \in Q} KL(q(z)||p(z|x))$

这么一来，就成功的 将一个贝叶斯推断问题转化为了一个优化问题 ！

3.2.1 变分推导过程

有了变分推断的认知，我们再回过头去看一下VAE模型的整体框架，VAE就是将AE的编码和解码过程转化为了一个贝叶斯概率模型：
我们的训练数据即为观测变量 $x$ ，假设它由不能直接观测到的潜变量 $z$ 生成。于是，生成观测变量过程便是似然分布：p(x|z) ，也就是解码器。因而编码器自然就是后验分布：p(z|x) 。
根据贝叶斯公式，建立先验、后验和似然的关系：

$\frac{p(x|z)p(z)}{p(x)} = \int_z \frac{p(x|z)p(z)}{p(x)}dz$

接下来，基于上面变分推断的思想，我们假设变分分布 $q_x(z)$ , 通过最小化KL散度来近似后验分布 $p (z ∣ x)$ ，于是，最佳的 $q_x^*$ 便是：

在这里插入图片描述

因为训练数据 $x$ 是确定的，因此 $l o g p (x)$ 是一个常数，于是上面的优化问题等价于：

在这里插入图片描述
此时，优观察一下优化方程的形式…已经是我们前面所说的VAE的损失函数了~~
显然，跟我们希望解码准确的目标是一致的。要解码的准，则 $p (x ∣ z)$ 应该尽可能的小，编码特征 $z$ 的分布 $q_x(z)$ 同 $p (z)$ 尽可能的接近，此时恰好 $- l o g p (x ∣ z)$ 和 $KL(q_x(z)||p(z))$ 都尽可能的小，与损失的优化的目标也一致。

3.3 如何计算极值

正如前面所提到的AE潜变量的局限性，我们希望VAE的潜变量分布应该能满足海量的输入数据 $x$ 并且相互独立，基于中心极限定理，以及为了方便采样，我们有理由直接假设 $p (z)$ 是一个标准的高斯分布 $\mathcal{N}(0,1)$ 。

3.3.1 编码部分

我们先来看一下编码部分，我们希望拟合一个分布 $q_x(z)=\mathcal{N}(\mu,\sigma)$ 尽可能接近 $=\mathcal{N}(0,1)$ ，关键就在于基于输入 $x$ 计算 $\mu$ 和 $\sigma$ , 直接算有点困难，于是就使用两个神经网络 $f (x)$ 和 $g (x)$ 来无脑拟合 $\mu$ 和 $\sigma$ 。

值得一提的是，很多地方实际使用 $f (x)$ 和 $g (x)$ 两部分神经网络并不是独立的，而是有一部分交集。即他们都先通过一个 $h (x)$ 映射到一个中间层 $h$ , 然后分别对 $h$ 计算 $f (h)$ 和 g(h)。这样做的好处的话一方面是可以减少参数数量，另外这样算应该会导致拟合的效果差一些，算是防止过拟合吧。

3.3.2 解码部分

解码，即从潜变量 $z$ 生成数据 $x$ 的过程，在于最大化似然 $p (x ∣ z)$ ，那这应该是个什么分布呢？通常我们假设它是一个伯努利分布或是高斯分布。
凭什么是这两个分布… 这个比较无解…可能伯努利分布十分简单，熟悉的人也多，高斯分布呢又太接近大自然了…关键用起来又方便…