自编码变分贝叶斯

最新推荐文章于 2023-12-26 10:59:48 发布

NeutronT

最新推荐文章于 2023-12-26 10:59:48 发布

阅读量5.8k

点赞数 10

分类专栏：算法详解文章标签：算法

本文链接：https://blog.csdn.net/NeutronT/article/details/78086340

版权

本文深入解析Diederik P. Kingma和Max Welling的Auto-encoding variational bayes论文，介绍自编码变分贝叶斯的原理，包括变分下界、SGVB估计量和AEVB算法。通过变分自编码器的Tensorflow代码示例，展示了如何利用神经网络作为概率编码器和解码器，并探讨了高斯情况下的再参数化技巧。

摘要由CSDN通过智能技术生成

自编码变分贝叶斯

标签（空格分隔）：机器学习

深度解读Diederik P. Kingma和Max Welling的论文 Auto-encoding variational bayes1，对中间涉及的公式进行了详尽的推导。最后给出了变分自编码器的Tensorflow示例代码。

0. 符号

数据点： $x$ , $x^{(i)}$
数据集： $X=\{ x^{(i)} \}_{i=1}^N$ ，满足 $i.i.d$ 条件
隐变量： $z$ , $z^{(i)}$
生成模型参数： $\theta$
变分参数： $\phi$
噪声变量： $\epsilon$

1. 问题背景

假设数据集 $X$ 是由未观测到的连续随机变量 $z$ 的某个随机过程生成的。该过程分为两个步骤：

第一步：从某个先验分布 $p_{\theta^*}(z)$ 生成 $z^{(i)}$ ；
第二步：从某个条件分布 $p_{\theta^*}(x|z)$ 生成 $x^{(i)}$ 。

其中，先验 $p_{\theta^*}(z)$ 和似然 $p_{\theta^*}(x|z)$ 分别来自参数分布族 $p_{\theta}(z)$ 和 $p_{\theta}(x|z)$ ，且这两个参数分布族的概率密度函数关于 $\theta$ 和 $z$ 几乎处处可微。
然而，真实参数 $\theta^*$ 和隐变量 $z^{(i)}$ 均是未知的。
上述这两个步骤分别相当于“编码”和“解码”，这应该就是称之为“自编码变分贝叶斯”的原因吧。
一个自然的想法是用最大似然法来求解未知的参数，即最大化边际似然。然而现实的情况是
1. 直接由等式 $p_{\theta}(x) = \int p_{\theta}(x|z) p_{\theta}(z) \mathbb{d}z$ 来估计边际似然是不可能的；
2. 真实后验 $p_{\theta}(z|x)=p_{\theta}(x|z) p_{\theta}(z)/p_{\theta}(x)$ 同样是难以估计的。
因此，只能从另外的途径来解决这个问题。

2. 变分下界

引入识别模型（recognition model） $q_{\phi}(z|x)$ 来近似真实后验分布 $p_{\theta}(z|x)$ ，这相当于一个概率编码器。
用KL散度来衡量 $q_{\phi}(z|x)$ 到 $p_{\theta}(z|x)$ 的距离：

D K L [q ϕ (z | x) ∥ p θ (z | x)] = \int q ϕ (z | x) q ϕ (z | x) log q ϕ ( z | x ) p θ ( z | x ) d z = E q ϕ (z | x) [log q ϕ (z | x) - log p θ (z | x)] = E q ϕ (z | x) [log q ϕ (z | x) - log p θ ( x , z ) p θ ( x )] = E q ϕ (z | x) [log q ϕ (z | x) - log p θ (x, z)] + log p θ (x)

$\begin{aligned} \mathop{D_{KL}} \left[ q_{\phi}(z|x) \| p_{\theta}(z|x) \right] &= \int_{q_{\phi}(z|x)} q_{\phi}(z|x) \log \frac{q_{\phi}(z|x)}{p_{\theta}(z|x)} \mathbb{d}z \\ &= \mathop{E_{q_{\phi}(z|x)}} \left[ \log q_{\phi}(z|x) - \log p_{\theta}(z|x) \right] \\ &= \mathop{E_{q_{\phi}(z|x)}}\left[ \log q_{\phi}(z|x) - \log \frac{p_\theta(x,z)}{p_\theta(x)} \right]\\ &= \mathop{E_{q_{\phi}(z|x)}}\left[ \log q_{\phi}(z|x) - \log p_\theta(x,z) \right] + \log p_\theta(x) \end{aligned}$
记