变分自编码器VAE

Bernard_Yang

已于 2022-02-11 01:22:59 修改

阅读量782

点赞数

于 2021-11-10 22:17:53 首次发布

本文链接：https://blog.csdn.net/weixin_38224810/article/details/121257881

版权

NLP 同时被 2 个专栏收录

21 篇文章 5 订阅

订阅专栏

Mathematics for machine learning

5 篇文章 0 订阅

订阅专栏

本文图片和公式统一和原始paper保持一致
Auto-Encoding Variational Bayes
部分公式参考 https://spaces.ac.cn/archives/5253

问题描述

考虑数据集 $\mathbf{X}=\left\{\mathbf{x}^{(i)}\right\}_{i=1}^{N}$ 包括 $N$ 个独立的来自连续或离散变量 $\mathrm{x}$ 的样本.
我们想得到概率分布 $p_{\boldsymbol{\theta}}(\mathbf{x})$
该变量x由 $\mathbf{z}$ 生成，有以下两个步骤：
$\mathbf{z}^{(i)}$ 由先验概率 $p_{\boldsymbol{\theta}^{*}}(\mathbf{z})$ 生成
$\mathbf{x}^{(i)}$ 由条件概率 $p_{\boldsymbol{\theta}^{*}}(\mathbf{x} \mid \mathbf{z})$ 生成

遗憾的是很多过程是不可见的，参数 $\boldsymbol{\theta}^{*}$ 和隐变量 $\mathbf{z}^{(i)}$ 的值也是未知的。
并且边际似然函数 $p_{\boldsymbol{\theta}}(\mathbf{x})=$ $\int p_{\boldsymbol{\theta}}(\mathbf{z}) p_{\boldsymbol{\theta}}(\mathbf{x} \mid \mathbf{z}) d \mathbf{z}$ 的计算是十分复杂的（intractable (so we cannot evaluate or differentiate the marginal likelihood)

后验概率 $p_{\boldsymbol{\theta}}(\mathbf{z} \mid \mathbf{x})=p_{\boldsymbol{\theta}}(\mathbf{x} \mid \mathbf{z}) p_{\boldsymbol{\theta}}(\mathbf{z}) / p_{\boldsymbol{\theta}}(\mathbf{x})$ 也是 intractable的 (so the EM algorithm cannot be used)
在这里插入图片描述
其中：
$p_{\boldsymbol{\theta}}(\mathbf{z}) p_{\boldsymbol{\theta}}(\mathbf{x} \mid \mathbf{z})$ 是生成模型
$q_{\boldsymbol{\phi}}(\mathbf{z} \mid \mathbf{x})$ 是后验概率 $p_{\boldsymbol{\theta}}(\mathbf{z} \mid \mathbf{x})$ 的近似
变分参数 $\phi$ 和生成模型的参数 $\boldsymbol{\theta}$ 可以同时被模型学习

假设和datapoint对应的后验概率 $p_{\boldsymbol{\theta}}(\mathbf{z} \mid \mathbf{x})$ 是正态分布，每次从中采用一个 $z_i$ 去还原 $x_i$ ，原文中也指出针对每个datapoint都有一个对应的 $q_{\boldsymbol{\phi}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)$ ，然后利用神经网络拟合均值和方差
在这里插入图片描述

VAE的目标是通过从encoder生成的Z中进行采样并进行X的重构，但噪声（方差）会增加重构的难度，但好在方差是神经网络训练出来的，于是模型为了重构质量会尽力让方差为0，但这样做的结果就是失去随机性，也就是不管怎么采样Z最后得到的结果都是均值，也就是另一个神经网络拟合的结果。于是退化成AE。

好在VAE假设后验概率 $p_{\boldsymbol{\theta}}(\mathbf{z} \mid \mathbf{x})$ 服从标准正态分布，于是
$p(Z)=\sum_{X} p(Z \mid X) p(X)=\sum_{X} \mathcal{N}(0, I) p(X)=\mathcal{N}(0, I) \sum_{X} p(X)=\mathcal{N}(0, I)$
先验 $P (Z)$ 也就服从标准正态分布

变分下限
边际似然由对每个数据点的边际似然求和组成
$\log p_{\boldsymbol{\theta}}\left(\mathbf{x}^{(1)}, \cdots, \mathbf{x}^{(N)}\right)=\sum_{i=1}^{N} \log p_{\boldsymbol{\theta}}\left(\mathbf{x}^{(i)}\right)$
可以被写成如下形式
$\log p_{\boldsymbol{\theta}}\left(\mathbf{x}^{(i)}\right)=D_{K L}\left(q_{\boldsymbol{\phi}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right) \| p_{\boldsymbol{\theta}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)\right)+\mathcal{L}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)$
推导过程如下
$q_{\boldsymbol{\phi}}(\mathbf{z} \mid \mathbf{x}^{(i)})$ 是假设的分布

等式右边第一项是假设和真正后验概率的KL散度，第二项 $\mathcal{L}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)$ 是数据点I边际似然的（变分）下界，可以被写作
$\log p_{\boldsymbol{\theta}}\left(\mathbf{x}^{(i)}\right) \geq \mathcal{L}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)=\mathbb{E}_{q_{\phi}(\mathbf{z} \mid \mathbf{x})}\left[-\log q_{\boldsymbol{\phi}}(\mathbf{z} \mid \mathbf{x})+\log p_{\boldsymbol{\theta}}(\mathbf{x}, \mathbf{z})\right]$
和
$\mathcal{L}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)=-D_{K L}\left(q_{\boldsymbol{\phi}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right) \| p_{\boldsymbol{\theta}}(\mathbf{z})\right)+\mathbb{E}_{q_{\phi}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)}\left[\log p_{\boldsymbol{\theta}}\left(\mathbf{x}^{(i)} \mid \mathbf{z}\right)\right]$
推导如下
在这里插入图片描述

此时需要优化下界 $\mathcal{L}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)$ 但是梯度求解释一个问题用蒙特卡洛方法求解的一般形式如下：
$\nabla_{\phi} \mathbb{E}_{q_{\phi}(\mathbf{z})}[f(\mathbf{z})]=\mathbb{E}_{q_{\phi}(\mathbf{z})}\left[f(\mathbf{z}) \nabla_{q_{\phi}(\mathbf{z})} \log q_{\phi}(\mathbf{z})\right] \simeq \frac{1}{L} \sum_{l=1}^{L} f(\mathbf{z}) \nabla_{q_{\phi}\left(\mathbf{z}^{(l)}\right)} \log q_{\phi}\left(\mathbf{z}^{(l)}\right)$
where $\mathbf{z}^{(l)} \sim q_{\phi}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right) .$
但该方法存在很大方差

如果假设和真实的后验概率越接近则KL散度越小，下界越接近边际似然函数 $logp_{\boldsymbol{\theta}}(\mathbf{x})$
在这里插入图片描述

下届又可以分为
在这里插入图片描述
$q_{\boldsymbol{\phi}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)$ 和 $P(\mathbf{z})$ 的KL散度和期望

于是最大化下界，第一步是最小化LB中的KL散度，即让 $q_{\boldsymbol{\phi}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)$ 和 $P(\mathbf{z})$ 接近，而 $P(\mathbf{z})$ 是标准正态分布。
第二步最大化上面的期望
总结就是给定一个X，通过 $q_{\boldsymbol{\phi}}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)$ sample一个Z，使得 $P (x ∣ z)$ 最大

其中第一项结果参考

重参数技巧
由于 $\log q_{\phi}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)=\log \mathcal{N}\left(\mathbf{z} ; \boldsymbol{\mu}^{(i)}, \boldsymbol{\sigma}^{2(i)} \mathbf{I}\right)$
采样的操作不可导，但结果可导，利用
$\begin{aligned} & \frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{(z-\mu)^{2}}{2 \sigma^{2}}\right) d z \\ =& \frac{1}{\sqrt{2 \pi}} \exp \left[-\frac{1}{2}\left(\frac{z-\mu}{\sigma}\right)^{2}\right] d\left(\frac{z-\mu}{\sigma}\right) \end{aligned}$

这说明 $(z-\mu) / \sigma=\varepsilon$ 是服从均值为 0 、方差为 1 的标准正态分布的, 要同时把 $d z$ 考虑进去, 是因为乘上 $d z$ 才算是概率, 去掉 $d z$ 是概率密度而不是概率。
这时候我们得到:
从 $\mathcal{N}\left(\mu, \sigma^{2}\right)$ 中采样一个 $Z$ , 相当于从 $\mathcal{N}(0, I)$ 中采样一个 $\varepsilon$ , 然后让 $Z=\mu+\varepsilon \times \sigma$ 。

Bernard_Yang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
变分自编码器VAE

本文图片和公式统一和原始paper保持一致Auto-Encoding Variational Bayes问题描述考虑数据集 X={x(i)}i=1N\mathbf{X}=\left\{\mathbf{x}^{(i)}\right\}_{i=1}^{N}X={x(i)}i=1N包括 NNN 个独立的来自连续或离散变量x\mathrm{x}x的样本. 该变量由 z\mathbf{z}z生成，有以下两个步骤z(i)\mathbf{z}^{(i)}z(i) 由先验概率pθ∗(z)p_{\boldsy
复制链接

扫一扫

专栏目录