变分自编码器（VAE）

最新推荐文章于 2024-09-14 06:18:44 发布

风吹草地现牛羊的马

最新推荐文章于 2024-09-14 06:18:44 发布

阅读量2.9k

点赞数 13

分类专栏：机器学习 NLP 变分贝叶斯系列

本文链接：https://blog.csdn.net/mch2869253130/article/details/102885243

版权

机器学习同时被 3 个专栏收录

97 篇文章 5 订阅

订阅专栏

NLP

42 篇文章 4 订阅

订阅专栏

变分贝叶斯系列

22 篇文章 13 订阅

订阅专栏

本文是在阅读苏剑林大佬和网上其他一些讲解之后做的总结，所以有一点对VAE的了解看本文会比较容易。
苏大佬的三部曲：
变分自编码器（一）：原来是这么一回事
 变分自编码器（二）：从贝叶斯观点出发
 变分自编码器（三）：这样做为什么能成？

自编码器与变分自编码器

在我理解看来，自编码器是一种学习数据特征的网络结构，由编码器、隐层表示和解码器三部分组成。假设有一组数据 $X=(x_{1}, x_{2},,,,x_{n})$ ，现在想学习到 $X$ 的数据特征，应该怎么做呢？编码器将输入数据 $x_{i}$ 编码成隐层表示 $h_{i}$ (向量)，然后解码器通过隐层表示将数据恢复出来记为 $\hat{x_{i}}$ ，通过距离函数 $D(x_{i},\hat{x_{i}})$ 衡量二者的误差。

下面用kreas实现一个简单的自编码器。

input_size= 784
hidden_size= 64
output_size= 784

x= Input(shape=(input_size,))

# Encoder
h= Dense(hidden_size, activation='relu')(x)

# Decoder
r= Dense(output_size, activation='sigmoid')(h)

autoencoder= Model(input=x, output=r)
autoencoder.compile(optimizer='adam', loss='mse')

在这里插入图片描述
可以看到，自编码器学习到的是数据特征的向量表示 $h_{i}$ ， $h_{i}$ 的每个维度就表示了学习到的数据的属性，也就是自编码器将数据的每个维度的特征表示成为单个的值了。

在这里插入图片描述
变分自编码器是用概率分布来描述数据特征，变分自编码器将学习到 $h_{i}$ 的每一个维度所表示特征的概率分布，也就是每一个维度的取值是一个范围，而不在是一个单个的值了。这样做的好处也是显而易见的，如果我们将自编码器看做生成模型，也就是我们希望用到解码器的输出，对于普通的自编码器，输入一张照片 $x_{i}$ ，学习到其特征向量表示 $h_{i}$ ，解码器根据 $h_{i}$ 只能重构出一张照片。而对于变分自编码器来说，输入一张照片 $x_{i}$ ，学习到其特征概率分布 $h_{i}$ ，解码器根据 $h_{i}$ 可以取不同的值重构出不同的照片，但是这些照片都是根据相同的特征重构出来的，所以应该是很相似的。

下面将整理两种不同的推导方式，第一种是论文中的推导方式，第二种是苏大佬的推导方式。

VAE的理论推导（一）

假定数据都是独立同分布的， $X = (x^{1}, x^{2},,,x^{n})$ ， $X$ 服从的分布的参数是 $\theta$ ，这里将每个样本的编号标在了右上角。
在这里插入图片描述
VAE的原理还是最大化似然函数来求解未知参数的，所以首先要写出未知参数的似然函数。VAE的概率图模型如上图所示，实线是生成过程，虚线是训练过程。对于单个样本 $x^{i}$ ，其对数似然边缘概率函数（暂时就这样命名了）就是

$\tag{1} logp_{\theta}(x^{i}) = \int p_{\theta}(x^{i}|z)p_{\theta}(z)dz$
其中 $z$ 是隐变量的空间，我们最后就是要通过学到的 $z 来生成 x$ 。

VAE用识别模型 $q_{\varphi}(z|x^{i})$ 去逼近真实的后验概率分布 $p_{\theta}(z|x^{i})$ ，用 $K L$
散度来衡量二者的距离，即
$\begin{aligned} \tag{2}KL(q_{\varphi}(z|x^{i}) || p_{\theta}(z|x^{i})) = & E_{q_{\varphi}(z|x^{i})}[log{q_{\varphi}(z|x^{i}) \over p_{\theta}(z|x^{i})}] \\ =& E_{q_{\varphi}(z|x^{i})}[log{q_{\varphi}(z|x^{i})p_{\theta}(x^i) \over p_{\theta}(z|x^{i})p_{\theta}(x^i)}] \\ = &E_{q_{\varphi}(z|x^{i})}[log{q_{\varphi}(z|x^{i}) \over p_{\theta}(z, x^{i})}] + E_{q_{\varphi}(z|x^{i})}[logp_{\theta}(x^{i})] \\ = & E_{q_{\varphi}(z|x^{i})}[log{q_{\varphi}(z|x^{i}) \over p_{\theta}(z, x^{i})}] + logp_{\theta}(x^{i}) \end{aligned}$
（2）式第3行到第4行是因为从 $q_{\varphi}(z|x^i)$ 采样 $z$ 之后就与 $x$ 无关了，所以 $E_{q_{\varphi}(z|x^{i})}[logp_{\theta}(x^{i})]=\int logp_{\theta}(x^i)q_{\varphi}(z|x^i)dz = logp_{\theta}(x^{i})$
由（2）式可以得到，
$\tag{3} logp_{\theta}(x^{i}) = KL(q_{\varphi}(z|x^{i})|| p_{\theta}(z|x^{i}))+L(\varphi,\theta,x^{i})$
其中
$\begin{aligned} \tag{4}L(\varphi,\theta,x^{i}) = &-E_{q_{\varphi}(z|x^{i})}[log{q_{\varphi}(z|x^{i}) \over p_{\theta}(z, x^{i})}] \\ = & E_{q_{\varphi}(z|x^{i})}[log{p_{\theta}(x^{i}|z)p_{\theta}(z) \over q_{\varphi}(z|x^{i})}] \\ = & E_{q_{\varphi}(z|x^{i})}[logp_{\theta}(x^{i}|z)] - KL(q_{\varphi}(z|x^{i})||p_{\theta}(z))) \end{aligned}$
根据（3）式我们得到了似然函数的另一种表达方式，由于（3）式中的KL散度是非负数，所以 $L(\varphi,\theta,x^{i})$ 是 $logp_{\theta}(x^{i})$ 的下界，那么最大化 $logp_{\theta}(x^i)$ 就可以转化为最大化 $L(\varphi,\theta,x^{i})$ 。
（4）式的另外一种推到方法(用到了jensen不等式)：
$\begin{aligned} logp_{\theta}(x) = & log \int_{z}p_{\theta}(x, z)dz \\ = & log \int_{z} {q_{\varphi}(z|x)p_{\theta}(x,z) \over q_{\varphi}(z|x)}dz \\ = & log E_{q_{\varphi}(z|x)}[{p_{\theta}(x, z) \over q_{\varphi}(z|x) }] \\ \ge & E_{q_{\varphi}(z|x)}[log{p_{\theta}(x, z) \over q_{\varphi}(z|x) }] \\ ELBO = & E_{q_{\varphi}(z|x)}[log{p_{\theta}(x, z) \over q_{\varphi}(z|x) }] \\ = & E_{q_{\varphi}(z|x)}[log{p_{\theta}(z)p_{\theta}(x|z) \over q_{\varphi}(z|x)}] \\ = & E_{q_{\varphi}(z|x)}[logp_{\theta}(x|z)] - KL[q_{\varphi}(z|x)||p_{\theta}(z)] \end{aligned}$

所以（4）式就是最后的损失函数。对于（4）式中的第一项，我们可以用蒙特卡洛模拟的方法，从 $q_{\varphi}(z|x^{i})$ 中依据z的概率分布采样L个点，即
$\tag{5}E_{q_{\varphi}(z|x^{i})}[logp_{\theta}(x^{i}|z)] \approx {1 \over L}\sum_{l =1}^{L}logp_{\theta}(x^{i}|z^{i,l})$
这样通过采样貌似可以，但是我们还要通过采样来反向梯度优化 $\varphi$ ，这样采样之后 $E_{q_{\varphi}(z|x^{i})}[logp_{\theta}(x^{i}|z)]$ 就与 $\varphi$ 无关了，因此这个操作是不可导的，就需要重参数化技巧来使采样操作可导。我们假设 $z^{i,l} = g_{\varphi}(x^{i}, \varepsilon^{i,l})，\varepsilon^{i,l} \sim p(\varepsilon)$ ，其中 $p(\varepsilon)和g_{\varphi}$ 都是形式已知的。这样（5）式对 $\varphi$ 就可导了，因为 $g_{\varphi}$ 中含有参数 $\varphi$ 。

所以（4）式可进一步写成
$\tag{6}L(\varphi,\theta,x^{i}) = {1 \over L}\sum_{l =1}^{L}logp_{\theta}(x^{i}|z^{i,l}) - KL(q_{\varphi}(z|x^{i})||p_{\theta}(z))$
其中 $z^{i,l} = g_{\varphi}(x^{i}, \varepsilon^{i,l})，\varepsilon^{i,l} \sim p(\varepsilon)$ 。也可以发现采样操作只用来计算（4）式中的第一项。

这里再讲解一下为什么采样操作不可导，我们可以反向思考一下，什么样的操作是可导的？
我们想要通过梯度来反向传播优化参数的话，那么在进行了这个操作之后，参数应该还是在表达式中的，比如我们从一个分布 $q(x|\theta)$ 中采样一个值，采样之后得到了一个确定性是值 $x_i$ ，而分布的参数 $\theta$ 就没有出现在表达式中了，所以后续无法通过梯度反向优化 $\theta$ 。

下图是VAE的模型图，左图没有用重参数化技巧，右图用了重参数化技巧。
红色框表示采样操作，是不可导的，蓝色框表示损失，我们期望的是，重构损失 $X-f(z)||^2$ 和KL损失都可以反向梯度传播来优化参数 $\mu(X), \Sigma(X)$ ，但是在左图中， $X-f(z)||^2$ 的损失反向传播到红色框就断了，无法继续优化 $\mu(X), \Sigma(X)$ ，而在右图中，使用重参数化技巧，将采样操作移到网络外面，两项损失的梯度都可以反向传播过来。

下面开始计算。

现在在（6）式中， $p_{\theta}(z)，q_{\varphi}(z|x^{i})，p_{\theta}(x^{i}|z)，g_{\varphi}(x^{i}, \varepsilon^{i,l})，p(\varepsilon)$ 都是未知的，只有给定他们才能启动算法。
在VAE中，一般假设
$p(\varepsilon) = N(\varepsilon；0, I) \\ g_{\varphi}(\varepsilon^{l}, x^{i}) = \mu^{i} + \sigma^{i}\odot\varepsilon^{l} \\ p_{\theta}(z) = N(z；0, I)\\ q_{\varphi}(z|x^{i})= N(z；\mu^{i},\sigma^{2(i)}I) \\ p_{\theta}(x^{i}|z)= N(x^{i}；\mu'^{i},\sigma'^{2(i)}I)$

在论文中，作者使用多层感知机（MLP）来拟合 $q_{\varphi}(z|x)和p_{\theta}(x|z)$
在这里插入图片描述
上式中的第一项是一般的正态分布与标准正态分布的KL散度，可以推导出来，具体推导细节可以看变分自编码器（一）：原来是这么一回事
在实现时，一般取 $L$ 为1就可以了，也就是采样一个点就够了。
下图是VAE训练时的网络结构
在这里插入图片描述
下图是用decoder生成时的网络结构

VAE理论推导（二）

这种方式是苏大佬的推导方式，与原论文的推导方式略有不同。具体是从一开始优化目标就不同。
苏大佬是找到一个 $x 和 z$ 的联和概率分布 $q (x, z)$ ，用 $q (x, z)$ 来近似真实的联合概率分布 $p (x, z)$
首先定义， $\hat{p(x)}p(z|x)$
在这里插入图片描述
方法二与方法一只是符号不同而已，本质还是相同的，关于方法二的很多细节，可以看苏大佬的博客，在本文开头已给出链接。