【模型学习-VAE】VAE、变分自编码器、Variational AutoEncoder

海绵_青年

已于 2023-11-12 16:07:59 修改

阅读量360

点赞数

文章标签：学习机器学习算法

于 2023-03-26 23:49:17 首次发布

本文链接：https://blog.csdn.net/qq_45445505/article/details/129785112

版权

Soft-Sensor 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

变分自编码器（Variational AutoEncoder, VAE）

预备知识

K-L散度（Kullback-Leibler divergence）

K-L散度又被称为相对熵（relative entropy），是对两个概率分布间差异的非对称性度量

计算公式

假定 $p (x)$ 和 $q (x)$ 是随机变量上的两个概率分布，则 $p (x)$ 分布跟 $q (x)$ 分布的相似性，可以描述如下：

在离散情况下：

$\begin{aligned} & K L(p(x) \| q(x))=\sum p(x) \log \frac{p(x)}{q(x)} \end{aligned}$

在连续情况下：

$\begin{aligned} & K L(p(x) \| q(x))=\int p(x) \log \frac{p(x)}{q(x)} d x \end{aligned}$

注意！！

KL散度的计算不具有对称性，KL散度描述的是两个分布之间的相似度，而不是距离
分布 $p (x)$ 对分布 $q (x)$ 的相似度 $\ne$ 分布 $q (x)$ 对分布 $p (x)$ 的相似度

正态分布间的KL散度计算

假设： $p (x)$ 遵从分布： $N\left( \mu _1, {\sigma _1}^2 \right)$ ; $q (x)$ 遵从分布： $N\left( \mu _2, {\sigma _2}^2 \right)$
$\begin{aligned} KL\left( p\left( x \right) \,\,|q\left( x \right) \right) =&KL\left( N\left( \mu _1,\sigma _{1}^{2} \right) \parallel N\left( \mu _2,\sigma _{2}^{2} \right) \right)\\ =&\sum{p}(x)\log \frac{p(x)}{q(x)}\\ =&\int{\frac{1}{\sqrt{2\pi \sigma _{1}^{2}}}}e^{-\left( x-\mu _1 \right) ^2/2\sigma _{1}^{2}}\left( \log \frac{\sqrt{\frac{1}{2\pi \sigma _{1}^{2}}}e^{-\left( x-\mu _1 \right) ^2/2\sigma _{1}^{2}}}{\frac{1}{2\pi \sigma _{2}^{2}}}e^{-\left( x-\mu _2 \right) ^2/2\sigma _{2}^{2}} \right) dx\\ =&\int{\frac{1}{\sqrt{2\pi \sigma _{1}^{2}}}}e^{-\left( x-\mu _1 \right) ^2/2\sigma _{1}^{2}}\log \left\{ \frac{\sqrt{\sigma _{2}^{2}}}{\sqrt{\sigma _{1}^{2}}}\exp \left\{ \frac{1}{2}\left[ \frac{\left( x-\mu _2 \right) ^2}{\sigma _{2}^{2}}-\frac{\left( x-\mu _1 \right) ^2}{\sigma _{1}^{2}} \right] \right\} \right\} dx\\ =&\frac{1}{2}\int{\frac{1}{\sqrt{2\pi \sigma _{1}^{2}}}}e^{-\left( x-\mu _1 \right) ^2/2\sigma _{1}^{2}}\left[ \log \sigma _{2}^{2}-\log \sigma _{1}^{2}+\frac{\left( x-\mu _2 \right) ^2}{\sigma _{2}^{2}}-\frac{\left( x-\mu _1 \right) ^2}{\sigma _{1}^{2}} \right] dx\\ =&\frac{1}{2}\int{p}(x)\left[ \log \sigma _{2}^{2}-\log \sigma _{1}^{2}+\frac{\left( x-\mu _2 \right) ^2}{\sigma _{2}^{2}}-\frac{\left( x-\mu _1 \right) ^2}{\sigma _{1}^{2}} \right] dx\\ &=\underbrace{\frac{1}{2}\left( \log \sigma _{2}^{2}-\log \sigma _{1}^{2}+\frac{\sigma _{1}^{2}+\left( \mu _1-\mu _2 \right) ^2}{\sigma _{2}^{2}}-1 \right) }\\ \end{aligned}$

当分布 $q (x)$ 有： $\mu =0, \sigma =1$ ，即 $N\left( 0, 1 \right)$
$\begin{aligned} KL\left( p\left( x \right) \,\,|q\left( x \right) \right) =KL\left( N\left( \mu _1,\sigma _{1}^{2} \right) \parallel N\left( 0,1^2 \right) \right) \\ =\underbrace{\frac{1}{2}\left( -\log \sigma _{1}^{2}+\sigma _{1}^{2}+{\mu _1}^2-1 \right) } \end{aligned}$

KL散度的值越小，说明两个分布之间的差异越小。

贝叶斯公式

$\mid x)=\frac{p(z, x)}{p(x)}=\frac{p(x \mid z) p(z)}{p(x)}\\ p(z\mid x)p(x)=\,\,p(z,x) =\,\,p(x,z) =\,\,p(x\mid z)p(z)$

个人理解

若现在可观测的是原始样本x，其分布为p(x)，可知；隐层特征为z，其分布为p(z)，未知
则有：
- 后验概率分布
$p(z\mid x)$
- 条件概率分布
$p(x\mid z)$

变分自编码器引入

AE模型的不足

编码得到的是原始数据的隐层特征，而不是隐层特征分布
只能重构数据，不能生成数据

【模型学习-AE】自编码器、AE、AutoEncoder

VAE模型的改进

编码部分得到原始数据的隐层特征分布
通过采样，解码，即可生成与原始数据相似的数据

问题背景

假设有N个独立同分布的数据点组成的数据集：

$X=\left\{ x_i \right\} _{i=1}^{M}$

若要通过VAE生成近似数据，则每个数据点的生成，遵从如下生成式过程：
1. 从某个先验分布 $p_{\theta}\left( z \right)$ 中采样得到隐层变量 $z_i$
2. 从条件分布 $p_{\theta}\left( x|z=z_i \right)$ 中采样得到数据点 $x_i$
在上述假设下，可知：
1. 隐变量 $z_i$ 不可观测，仅数据点 $x_i$ 可观测
2. 先验分布 $p_{\theta}\left(z\right)$ 和条件似然函数 $p_{\theta}\left(x|z=z_i \right)$ 都是 $\theta$ 的函数（这个函数表示形式可以是神经网络，也可以是其他数学模型）

待解决问题

θ的参数估计问题：仅知道数据集 $X=\left\{ x_i \right\} _{i=1}^{M}$ ，如何对生成模型 $\theta$

解决该问题，可以公式化描述数据的生成过程，实现数据生成
后验推断问题：即给定参数 $\theta$ ，在给定数据点 $x_i$ 后，得出这个数据点隐层变量的后验概率分布 $p_{\theta}\left( z|x \right)$

解决该问题，可以对数据点x做表征学习，或者维度压缩、特征提取
边际分布推断问题：给定一组 $\theta$ 后，计算给出边际分布 $p_{\theta}\left( x_i \right)$

解决该问题，可以适用于任何需要对数据x做先验假设的场景

变分方法引入

上述三个问题，以”后验推断“为切入点，这是引入变分问题的关键，而变分的引入是推导VAE的关键

后验概率分布 $p_{\theta}\left( z\mid x_i \right)$ 展开

$\begin{aligned} p_{\theta}\left( z\mid x_i \right) &=\frac{\begin{array}{c} p_{\theta}\left( z,x_i \right)\\ \end{array}}{p_{\theta}\left( x_i \right)}=\left( \frac{\text{贝叶斯公式}}{\text{边缘概率计算}} \right)\\ &=\frac{p_{\theta}\left( x_i\mid z \right) p_{\theta}\left( z \right)}{\int_z{p_{\theta}}\left( x_i,z \right) dz}\\ &=\frac{p_{\theta}\left( x_i\mid z \right) p_{\theta}\left( z \right)}{\int_z{p_{\theta}}\left( x_i\mid z \right) p_{\theta}\left( z \right) dz}\\ \end{aligned}$

如果θ已知，则上述分子已知（条件似然函数和先验分布）
求出分母积分，即可解决后验推断问题。但不太可能，先验分布和条件似然函数没有做任何假设，积分没有解析解
1. 虽然可用MCMC方法实现积分项的估计，但是该方法精确却耗时，难以适用于大数据场景
2. 一般采用”变分“方法，将积分求解问题转化为参数优化问题

变分推断

引入新的参数化分布：

$q_{\varphi}\left( z\mid x_i \right) , \varphi \text{为参数}$

核心思想：让引入的参数化分布，去拟合后验分布，只要拟合精度足够，就可以用引入的参数化分布代替后验分布
近似方法：：最小化两者之间的KL散度

$\begin{aligned} arg\min _{\theta ,\varphi}\,\,KL\left( q_{\varphi}\left( z\mid x_i \right) \parallel p_{\theta}\left( z\mid x_i \right) \right) &=\int_{\mathbf{z}}{q_{\varphi}\left( z\mid x_i \right) \log \frac{q_{\varphi}\left( z\mid x_i \right)}{p_{\theta}\left( z\mid x_i \right)}dz}\\ &=\int_{\mathbf{z}}{q_{\varphi}\left( z\mid x_i \right) \log q_{\varphi}\left( z\mid x_i \right) dz}-\int_{\mathbf{z}}{q_{\varphi}\left( z\mid x_i \right) \log p_{\theta}\left( z\mid x_i \right) dz}\\ &=\int_{\mathbf{z}}{q_{\varphi}\left( z\mid x_i \right) \log q_{\varphi}\left( z\mid x_i \right) dz}-\int_{\mathbf{z}}{q_{\varphi}\left( z\mid x_i \right) \log \frac{p_{\theta}\left( z,x_i \right)}{p\left( x_i \right)}dz}\\ &=\int_{\mathbf{z}}{q_{\varphi}\left( z\mid x_i \right) \log q_{\varphi}\left( z\mid x_i \right) dz}-\int_{\mathbf{z}}{q_{\varphi}\left( z\mid x_i \right) \log p_{\theta}\left( z,x_i \right) dz}+\int_{\mathbf{z}}{q_{\varphi}\left( z\mid x_i \right) \log p\left( x_i \right) dz}\\ &=E_{q_{\varphi}\left( z\mid x_i \right)}\left[ \log q_{\varphi}\left( z\mid x_i \right) \right] -E_{q_{\varphi}\left( z\mid x_i \right)}\left[ \log p_{\theta}\left( z,x_i \right) \right] +E_{q_{\varphi}\left( z\mid x_i \right)}\left[ \log p\left( x_i \right) \right]\\ &=\underbrace{E_q\left[ \log q\left( z\mid x_i \right) \right] -E_q\left[ \log p\left( z,x_i \right) \right] }+\underbrace{E_q\left[ \log p\left( x_i \right) \right] }\\ &=-\mathrm{ELBO}+E_q\left[ \log p\left( x_i \right) \right]\\ \end{aligned}$

上述公式最后一项解释：即最后一项是常数项，可以在寻优的过程中忽略

$\begin{aligned} E_q\left[ \log p\left( x_i \right) \right] & = \int_{\mathbf{z}}{q_{\varphi}\left( z\mid x_i \right) \log p\left( x_i \right) dz} \\ &=\log p\left( x_i \right) \int_{\mathbf{z}}{\frac{q_{\varphi}\left( z,x_i \right)}{q_{\varphi}\left( x_i \right)}dz} \\ &=\log p\left( x_i \right) *1 \\ &=\log p\left( x_i \right) \end{aligned}$

参数优化等价：

等价变化：

$arg\min_{\theta ,\varphi} \,\,KL\left( q_{\varphi}\left( z\mid x_i \right) \parallel p_{\theta}\left( z\mid x_i \right) \right) \Leftrightarrow arg\min_{\theta ,\varphi} -\mathrm{ELBO}\\$

继续分析：

$\begin{aligned} arg\min_{\theta ,\varphi} \,\,KL\left( q_{\varphi}\left( z\mid x_i \right) \parallel p_{\theta}\left( z\mid x_i \right) \right) &=E_q\left[ \log q\left( z\mid x_i \right) \right] -E_q\left[ \log p\left( z,x_i \right) \right]\\ &=\,\,E_q\left[ \log q\left( z\mid x_i \right) \right] -E_q\left[ \log p\left( x_i|z \right) \right] -E_q\left[ \log p\left( z \right) \right]\\ &=\,\,\underbrace{E_q\left[ \log q\left( z\mid x_i \right) \right] -E_q\left[ \log p\left( z \right) \right] }-E_q\left[ \log p\left( x_i|z \right) \right]\\ &=KL\left( q\left( z\mid x_i \right) \,\,|p\left( z \right) \right) -E_q\left[ \log p\left( x_i|z \right) \right]\\ \end{aligned}$

结果分析：
1. 最小化上述结果，即最小化第一项，最大化第二项
2. 最小化第一项： $q_{\varphi}\left( z\mid x_i \right)$ 分布要尽可能近似于 $p_{\theta}\left( z\mid x_i \right)$ 分布
3. 最大化第二项：不断地在z上采样，使得重构地样本结果中重构x的期望最大，即使得重构的x’与原始数据x的MSE尽可能小（这点还有待明确！）

MCMC近似处理期望

$E_q\left[ \log p\left( x_i|z \right) \right] =\frac{1}{L}\sum\nolimits_{l=1}^L{\left[ \log p_{\theta}\left( x_i|z_{\left( i,l \right)} \right) \right]}$

样本 $z_{i,l}$ 采样自分布 $q_{\varphi}\left( z\mid x_i \right)$ ，通过样本平均来代替期望

reparameterization trick

在实际过程中，一般不对 $q_{\varphi}\left( z\mid x_i \right)$ 直接采样，原因如下：

$q_{\varphi}\left( z\mid x_i \right)$ 分布复杂，采样难度增大
若直接采样，上述MCMC近似的期望项无法求导，不能进行梯度更新

trick操作：

有如下假设：

$z_{i,l}=g_{\phi}\left( \epsilon _{i,l};x_i \right)$

其中 $g_\phi$ 是一个拟合函数（可以是神经网络）， $\epsilon _{i,l}$ 通过采样得到，一般直接采样自简单的标准正态分布

VAE实现

结构图对比

识别模型： $q_{\varphi}\left( z\mid x_i \right)$ ，就是以x为输入z为输出的Encoder，对比AE的Encoder，他输出的不是确定的值，而是所有z可能取值的分布
生成模型： $p_{\theta}\left( x_i|z\right)$ ，就是以z为输入x为输出的Dencoder，对比AE的Encoder，他输出的不是确定的值，而是所有x可能取值的分布（有点理解不动了）

损失函数细节

KL散度项

$KL\left( p\left( x \right) \,\,| q\left( x \right) \right) =KL\left( N\left( \mu _1,\sigma _{1}^{2} \right) \parallel N\left( 0,1^2 \right) \right) \\ =\underbrace{\frac{1}{2}\left( -\log \sigma _{1}^{2}+\sigma _{1}^{2}+{\mu _1}^2-1 \right) }$

现有结果已经很方便求导，但是含有对数项，若求导更新参数的时候，对数函数会压缩误差
所以我们不对 $\sigma_1$ 本身建模，对其对数 $\sigma_1$ 建模，我们假设VAE生成的是 $\sigma_1^2$ ，则KL散度公式变为：

$KL\left( p\left( x \right) \,\,| q\left( x \right) \right) =\underbrace{\frac{1}{2}\left( -\log var+e^{\log var}+{\mu _1}^2-1 \right) }$

期望项

本质是负对数似然（Negative Log Likelihood），可以用AE里面的重构损失代替该项

$\begin{aligned} \mathrm{Re}contruction\,\,Loss\Leftrightarrow -E_q\left[ \log p\left( x_i|z \right) \right] &=-\frac{1}{L}\sum\nolimits_{l=1}^L{\left[ \log p_{\theta}\left( x_i|z_{\left( i,l \right)} \right) \right]} \\ &=\,\,\sum_{i=1}^N{\left\| \hat{x}_i-x_i \right\| ^2} \end{aligned}$

参考文献

大神！

二神！

三神!

Tutorial on Variational Autoencoders

海绵_青年

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【模型学习-VAE】VAE、变分自编码器、Variational AutoEncoder

变分自编码器（Variational AutoEncoder, VAE）预备知识K-L散度（Kullback-Leibler divergence）K-L散度又被称为相对熵（relative entropy），是对两个概率分布间差异的非对称性度量计算公式假定p(x)p(x)p(x)和q(x)q(x)q(x)是随机变量上的两个概率分布，则p(x)p(x)p(x)分布跟q(x)q(x)q(x)分布的相似性，可以描述如下：在离散情况下：KL(p(x)∥q(x))=∑p(x)log⁡p(x)q
复制链接

扫一扫