变分自编码器(VAE)

最新推荐文章于 2024-05-26 22:58:11 发布

Jie Qiao

最新推荐文章于 2024-05-26 22:58:11 发布

阅读量2.2k

点赞数 6

分类专栏：机器学习文章标签： VAE 变分自编码器深度学习变分推断

本文链接：https://blog.csdn.net/a358463121/article/details/79543198

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

变分自编码器(VAE)

文章目录

变分自编码器(VAE)
- 从EM到变分推断
- 从变分推断到VAE
参考资料

从EM到变分推断

我们假设有一个隐变量z，我们的样本 $x^{( i)}$ 是从 $p_{\theta }( x|z)$ 中产生，因为有隐变量的存在，通常 $p_{\theta }( x) =\int p_{\theta }( z) p_{\theta }( x|z) dz$ 的边缘分布是没法算的。

所以传统来说，我们会构造出一个下界：
$\begin{aligned} \log p( x) & =\underbrace{E_{z\sim q( z)}(\log p( x ,z)) -H( q)}_{ELBO} +KL( q( z) ||p( z |x)) \end{aligned}$
因此当我们最大化下界（ELBO）时，就相当于在最小化 $K L (q (z) ∣ ∣ p (z ∣ x))$
这里写图片描述

而EM算法，就是通过精心选择这个下界中的q，从而使得下界最大化，也就是计算 $q (z) = p (z ∣ x)$ 来近似该模型的似然度。进一步可以参考我之前写的文章《带你理解EM算法》

然而如果我们令 $=\frac{p_{\theta }( x|z) p_{\theta }( z)}{p_{\theta }( x)}$ 也是不可计算的呢，比如你的z有很多很多维，那么你在算那个期望的时候就会出现一堆积分，这是非常难算的。

此时我们可以使用变分推断的方法，那就是，我们不直接令 $q (z) = p (z ∣ x)$ 了，而是选一个相对简单的分布 $q (z)$ 去近似 $p (z ∣ x)$ ，（注意，这个q不一定是q(z)还可以是q(z|x)，这种情况称为amortized variational），这个“近似”的数学形式写作 $min_q KL(q(z)\| p(z|x))$ 或 $min_q KL(q(z|x)\| p(z|x))$ 。那么简单的q怎么来？最常用的就是对q作平均场(mean-field)假设，即，我们可以认为：
$q(\mathbf{z}) =\prod _{i} q_{i}( z_{i})$
这个假设的意思是，虽然你的z有很多维，但是他们都是相互独立的，也就是说，你算很多很多积分的时候，每个 $z_{i}$ 可以分别积分，所以一个联合积分的问题就简化成了仅需一个积分的问题，于是我们在优化ELBO的时候，只需分别优化 $q_{i}$ 就可以了。将平均场假设代进ELBO中，化简可以得到
$\begin{aligned} ELBO & =\int _{z_{j}} q_{j}( z_{j})\left[\underset{z_{i\neq j}}{\int \dotsc \int } q( z)\log p( x,z) dz_{i}\right] dz_{j} -\sum _{i}\int _{z_{i}} q_{i}( z_{i})\log q_{i}( z_{i}) dz_{i}\\ & =\int _{z_{j}} q_{j}( z_{j}) E_{i\neq j}[\log p( x,z)] dz_{j} -\int _{z_{j}} q_{j}( z_{j})\log q_{j}( z_{j}) dz_{j} -\underbrace{\sum _{i\neq j}\int _{z_{i}} q_{i}( z_{i})\log q_{i}( z_{i}) dz_{i}}_{Const\ for\ j}\\ & =\int _{z_{j}} q_{j}( z_{j})\log\frac{E_{i\neq j}[\log p( x,z)]}{q_{j}( z_{j})} dz_{j} -\underbrace{\sum ^{M}_{i\neq j}\int _{z_{i}} q_{i}( z_{i})\log q_{i}( z_{i}) dz_{i}}_{Const\ for\ j}\\ & =-KL( E_{i \neq j}[\log p( x,z) ||q_{j}( z_{j})]) +const \end{aligned}$

因为每个 $z_{j}$ 都是相互独立，于是，只需分别最大化每个 $z_{j}$ 的ELBO就可以实现ELBO最大化，而其他的项都视作了常数，此时，ELBO就简单地变成了一个负的KL距离，所以，想要最大化这个ELBO，我们只需要令
$q_{j}( z_{j}) =E_{i\neq j}[\log p( x,z)]$
就可以了。这实际上是一个迭代的问题，因为在constant中，包含了其他的项的q，所以，我们只需不断地更新各个元素q的分布直到收敛就可以了。

从变分推断到VAE

但是，如果即使用了平均场假设也没法算，而使用MCMC又太慢怎么办？为了解决这个问题，我们回到最初的那个下界的表达式中

$\begin{aligned} \log p( x |\theta ) & =\underbrace{E_{z\sim q( z)}(\log p( x ,z)) -H( q)}_{ELBO} +KL( q( z) ||p( z |x)) \end{aligned}$
实际上ELBO有几种不同的，但是等价的表达方式：

KL form :
$\mathcal{L}( \theta ;x) =E_{z\sim q( z)}(\log p_{\theta }( x|z)) -KL( q( z) ||p_{\theta }( z))$
Entropy form:
$\mathcal{L}( \theta ;x) =E_{z\sim q( z)}(\log p_{\theta }( x ,z)) -H( q)$
Fully Monte Carlo(FMC) form:
$\mathcal{L}( \theta ;x) =E_{z\sim q( z)}[\log p_{\theta }( x,z) -\log q( z)]$

其中q是一个任意的分布，那么现在，我们令 $\triangleq q_{\phi }( z|x)$ ，用KL形式的下界可以得到：
$\mathcal{L}( \theta ,\phi ;x) =E_{z\sim q_{\phi }( z|x)}(\log p_{\theta }( x|z)) -KL( q_{\phi }( z|x) ||p_{\theta }( z))$
现在引入了一个带参数的 $q_{\phi }$ 来表示这个上界，如果要最大化这个上界，我们只要用梯度上升不断更新参数 $\phi$ 就可以了。一般情况下，KL距离的那一项是有解析解的，所以梯度很好求。然而对第一项求梯度则没那么简单，一个常用的方法是 $\nabla _{\phi } E_{z\sim q_{\phi }( z)}( f( z)) =E_{z\sim q_{\phi }( z)}[ f( z) \nabla _{\phi }\log q_{\phi }( z)] \simeq \frac{1}{L}\sum ^{L}_{l=1} f\left( z^{l}\right) \nabla _{\phi }\log q_{\phi }\left( z^{l}\right)$ ，但是这么做的方差太高。

reparameterization

如上图，我们可以用reparameterize trick来解决这个问题，这时z对于x来说就是一个固定的值，只要我们从 $\epsilon$ 中抽样后，固定住就可以了，设
$z=g_{\phi }( \epsilon ,x) ,\epsilon \sim p( \epsilon )$
其中$\epsilon $是一个已知的简单分布，比如说标准正态分布，次数z的产生就变成了从某个固定的标准分布中采样，于是下界中的期望那一项可以改写成：
$E_{z\sim q_{\phi }( z|x)}(\log p_{\theta }( x|z)) =E_{\epsilon \sim p( \epsilon )}(\log p_{\theta }( x|g_{\phi }( \epsilon ,x))) \simeq \frac{1}{L}\sum ^{L}_{l=1}\log p_{\theta }( x|g_{\phi }( \epsilon ,x))$
于是对于一个样本 $x^{( i)}$ 的下界可以写作：
$\mathcal{L}\left( \theta ,\phi ;x^{( i)}\right) =\frac{1}{L}\sum ^{L}_{l=1}\log p_{\theta }\left( x^{( i)} |z^{( i,l)}\right) -KL\left( q_{\phi }\left( z^{( i)} |x^{( i)}\right) ||p_{\theta }\left( z^{( i)}\right)\right)$
其中 $z^{( i,l)} =g_{\phi }\left( \epsilon ^{( i,l)} ,x^{( i)}\right) ,\epsilon ^{( l)} \sim p( \epsilon )$
在这里，如果我们用一个MLP来表示 $p_{\theta }$ 和 $q_{\phi }$ 和就可以对用这个目标函数求梯度来最大化了，注意产生z的分布 $q_{\phi }$ 其实是由一个标准正态分布的 $\epsilon$ 和一个用MLP表示的映射函数 $g_{\phi }$ 构成的，所以训练过程实际上是更新 $p_{\theta }$ 和 $g_{\phi }$ 这两个MLP的参数，我们称 $p_\theta$ 为encoder network, $q_{\phi }$ 为decoder network。而z的产生则是从 $\epsilon )$ 抽一个样本，然后经过一个确定性 $g_{\phi }$ 来产生。

更直观一点，如果我们假设先验分布 $p (z)$ , $\epsilon )$ 服从标准正态分布，
$z=q_{\phi }( z|x) =g_{\phi }( \epsilon ,x) =\mu _{\phi }( x) +\Sigma _{\phi }^{1/2}( x) \epsilon$
也就是说， $q_{\phi }( z|x) \sim N\left( \mu _{\phi }( x) ,\Sigma _{\phi }^{1/2}( x)\right)$ 也是正态分布，不过其参数由x决定。于是对于两个正态分布的KL距离，对于有J个维度的z，我们完全可以算出其解析解：
$\begin{aligned} -KL( q_{\phi }(\mathbf{z} |\mathbf{x}) ||p_{\theta }(\mathbf{z})) & =-KL( N(\mathbf{\mu }_{\phi } ,\mathbf{\sigma }_{\phi }) ||N(\mathbf{0} ,\mathbf{I}))\\ & =\frac{1}{2}\sum ^{J}_{j=1}\left(\left( 1+\log \sigma ^{2}_{j}\right) -\mu ^{2}_{j} -\sigma ^{2}_{j}\right) \end{aligned}$
这个公式其实来自于两个n元高斯分布的KL距离，他的详细推导过程如下：
$\begin{aligned} & D( P_{1} \| P_{2})\\ = & \ \mathrm{E}_{P_{1}}[\log P_{1} -\log P_{2}]\\ = & \frac{1}{2}\mathrm{E}_{P_{1}}\left[ -\log\operatorname{det} \Sigma _{1} -( x-\mu _{1})^{T} \Sigma ^{-1}_{1}( x-\mu _{1}) +\log\operatorname{det} \Sigma _{2} +( x-\mu _{2})^{T} \Sigma ^{-1}_{2}( x-\mu _{2})\right]\\ = & \frac{1}{2}\log\frac{\operatorname{det} \Sigma _{2}}{\operatorname{det} \Sigma _{1}} +\frac{1}{2}\mathrm{E}_{P_{1}}\left[ -( x-\mu _{1})^{T} \Sigma ^{-1}_{1}( x-\mu _{1}) +( x-\mu _{2})^{T} \Sigma ^{-1}_{2}( x-\mu _{2})\right]\\ = & \frac{1}{2}\log\frac{\operatorname{det} \Sigma _{2}}{\operatorname{det} \Sigma _{1}} +\frac{1}{2}\mathrm{E}_{P_{1}}\left[ -\operatorname{tr}\left( \Sigma ^{-1}_{1}( x-\mu _{1})( x-\mu _{1})^{T}\right) +\operatorname{tr}\left( \Sigma ^{-1}_{2}( x-\mu _{2})( x-\mu _{2})^{T}\right)\right]\\ = & \frac{1}{2}\log\frac{\operatorname{det} \Sigma _{2}}{\operatorname{det} \Sigma _{1}} +\frac{1}{2}\mathrm{E}_{P_{1}}\left[ -\operatorname{tr}\left( \Sigma ^{-1}_{1} \Sigma _{1}\right) +\operatorname{tr}\left( \Sigma ^{-1}_{2}\left( xx^{T} -2x\mu ^{T}_{2} +\mu _{2} \mu ^{T}_{2}\right)\right)\right]\\ = & \frac{1}{2}\log\frac{\operatorname{det} \Sigma _{2}}{\operatorname{det} \Sigma _{1}} -\frac{1}{2} n+\frac{1}{2}\operatorname{tr}\left( \Sigma ^{-1}_{2}\left( \Sigma _{1} +\mu _{1} \mu ^{T}_{1} -2\mu _{2} \mu ^{T}_{1} +\mu _{2} \mu ^{T}_{2}\right)\right)\\ = & \frac{1}{2}\left(\log\frac{\operatorname{det} \Sigma _{2}}{\operatorname{det} \Sigma _{1}} -n+\operatorname{tr}\left( \Sigma ^{-1}_{2} \Sigma _{1}\right) +\operatorname{tr}\left( \mu ^{T}_{1} \Sigma ^{-1}_{2} \mu _{1} -2\mu ^{T}_{1} \Sigma ^{-1}_{2} \mu _{2} +\mu ^{T}_{2} \Sigma ^{-1}_{2} \mu _{2}\right)\right)\\ = & \frac{1}{2}\left(\log\frac{\operatorname{det} \Sigma _{2}}{\operatorname{det} \Sigma _{1}} -n+\operatorname{tr}\left( \Sigma ^{-1}_{2} \Sigma _{1}\right) +( \mu _{2} -\mu _{1})^{T} \Sigma ^{-1}_{2}( \mu _{2} -\mu _{1})\right) \end{aligned}$

我们可以稍微试验一下，设 $\displaystyle \Sigma _{2} =\alpha E,\mu _{2} =0$ ,并且 $\displaystyle \Sigma _{1}$ 是对角矩阵，于是

$\begin{aligned} & \frac{1}{2}\left(\log\frac{\operatorname{det} \Sigma _{2}}{\operatorname{det} \Sigma _{1}} -n+\operatorname{tr}\left( \Sigma ^{-1}_{2} \Sigma _{1}\right) +(\mu _{2} -\mu _{1} )^{T} \Sigma ^{-1}_{2} (\mu _{2} -\mu _{1} )\right)\\ = & \frac{1}{2}\left( n\log \alpha -\log\operatorname{det} \Sigma _{1} -n+\alpha ^{-1}\operatorname{tr}( \Sigma _{1}) +\alpha ^{-1} \mu ^{T}_{1} \mu _{1}\right)\\ = & \frac{1}{2}\left(\sum ^{n}_{j=1}\left(\log \alpha -\log \sigma _{j} -1+\alpha ^{-1} \sigma _{j} +\alpha ^{-1} \mu _{j}^2\right)\right) \end{aligned}$

接下来我们看看这个网络的架构
vae

encoder network将一只喵星人映射成一个均值和一个方差，然后产生一个z样本，通过decoder network再变成一只喵~

然而VAE对比GAN确实存在一些问题。
vse vs gan

可以看到VAE的“拟合”能力没有GAN的强，VAE会趋于平滑而GAN则不会。而且VAE产生的图像会比较模糊，这似乎所有优化对数似然的目标函数 $KL(p_{data}||p_{model})$ 都有这问题(《Deep learning》)，这一点，或许与KL距离的性质有关系，可以看我的另外一篇文章，《正向跟反向KL距离到底有什么区别？》

参考资料

Auto-encoding variational bayes

Tutorial on variational autoencoders

How does the reparameterization trick for VAEs work and why is it important?

Variational Autoencoders Explained
Deep learning

徐亦达机器学习课程

带你理解EM算法

作为分享主义者(sharism)，本人所有互联网发布的图文均遵从CC版权，转载请保留作者信息并注明作者Jie Qiao专栏:http://blog.csdn.net/a358463121，如果涉及源代码请注明GitHub地址：https://github.com/358463121/。商业使用请联系作者。

Jie Qiao

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
4
评论
变分自编码器(VAE)

变分自编码器(VAE)变分自编码器(VAE)从EM到变分推断从变分推断到VAE参考资料从EM到变分推断我们假设有一个隐变量z，我们的样本x(i)x(i)x^{( i)}是从pθ(x|z)pθ(x|z)p_{\theta }( x|z)中产生，因为有隐变量的存在，通常pθ(x)=∫pθ(z)pθ(x|z)dzpθ(x)=∫pθ(z)pθ(x|z)dzp_{\th...
复制链接

扫一扫