变分贝叶斯自编码器笔记

会飞的鱼chelmx

已于 2022-02-04 23:28:48 修改

阅读量930

点赞数

分类专栏：深度学习文章标签：自编码器深度学习机器学习人工智能

于 2018-09-03 23:29:46 首次发布

本文链接：https://blog.csdn.net/m0_37142194/article/details/82356718

版权

深度学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

变分贝叶斯自编码器笔记

1. 问题情境

数据集 $\mathbf{X}={\{\mathbf{x}^{(i)}}\}_{i=1}^N$ 是随机变量 $\mathbf{x}$ 的 $N$ 个独立同分布采样。假设数据 $\mathbf{x}^{(i)}$ 由潜变量 $\mathbf{z}$ 的某种随机过程生成，这种随机过程由两个步骤组成：(1)根据先验概率 $p_{\mathbf{\theta}^*}(\mathbf{z})$ 生成采样数据 $\mathbf{z}^{(i)}$ 。(2)根据似然概率 $p_{\mathbf{\theta}^*}(\mathbf{x}|\mathbf{z})$ 生成采样数据 $\mathbf{x}^{(i)}$ 。其中 $p_{\mathbf{\theta}^*}(\mathbf{z})$ 和 $p_{\mathbf{\theta}^*}(\mathbf{x}|\mathbf{z})$ 来自于 $p_{\mathbf{\theta}}(\mathbf{z})$ 和 $p_{\mathbf{\theta}}(\mathbf{x}|\mathbf{z})$ 的参数族。

2. 变分下界

对数似然函数数学表示如下：

$\log p_\mathbf{\theta}(\mathbf{x}^{(i)})=D_{KL}(q_{\phi}(\mathbf{z}|\mathbf{x}^{(i)})||p_{\mathbf{\theta}}(\mathbf{z}|\mathbf{x}^{(i)}))+\mathcal{L}(\mathbf{\theta},\mathbf{\phi};\mathbf{x}^{(i)})\tag{1}$

$\mathcal{L}(\mathbf{\theta},\mathbf{\phi};\mathbf{x}^{(i)})=-D_{KL}(q_{\mathbf{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})||p_{\mathbf{\theta}}(\mathbf{z}))+\mathbb{E}_{q_{\mathbf{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})}[\log p_{\mathbf{\theta}}(\mathbf{x}^{(i)}|\mathbf{z})]=\mathcal{L}_1+\mathcal{L}_2\tag{2}$

$D_{KL}$ 表示KL散度， $\mathcal{L}$ 表示变分下界。根据EM算法思想，由于KL散度非负，可以利用最大化变分下界近似最大化对数似然函数。

变分推断利用形式已知的分布 $q_{\phi}(\mathbf{z}|\mathbf{x}^{(i)})$ 近似分布 $p_{\theta}(\mathbf{z}|\mathbf{x}^{(i)})$ ，其优化目标为最大化变分下界。

3. SGVB估计与AEVB算法

分布函数 $p_{\theta}(z_j)$ 以及 $q_{\mathbf{\phi}}(z_j|\mathbf{x}^{(i)})$ 服从高斯分布：

$KaTeX parse error: \tag works only in display equations$

$q_{\mathbf{\phi}}(z_j|\mathbf{x}^{(i)})\sim N(z_j;u_j(\mathbf{x}^{(i)},\phi),{\sigma} _j^2(\mathbf{x}^{(i)},\phi))\tag{4}$

3.1 SGVB估计

3.1.1 对 $\mathcal{L}_1$ 求导

$\begin{aligned}\mathcal{L}_1&=-\sum _jD_{KL}(q_{\mathbf{\phi}}(z_j|\mathbf{x}^{(i)})||p_{\mathbf{\theta}}(z_j)) \\&=\frac{1}{2}\sum_j(1+\log(\sigma_j^2)-\mu_j^2-\sigma_j^2)\end{aligned}\tag{5}$

对 $\mathcal{L}_1$ 的求导可采用常规方法。

3.1.2 对 $\mathcal{L}_2$ 求导

$\mathcal{L}_2 \simeq \frac{1}{L}\sum_{l=1}^{L}\log p_{\theta}(\mathbf{x}^{(i)}|\mathbf{z}^{(l)}), \ \mathbf{z}^{(l)}\sim q_{\phi}(\mathbf{z}|\mathbf{x}^{(i)})\tag{6}$

由于 $\mathcal{L}_2$ 中积分运算十分复杂，因此利用MCMC采样近似计算，但这种方式不可导。参考文献[2]利用MCMC采样方法对 $\mathcal{L}_2$ 求导：

$\nabla_\phi\mathcal{L}_2\simeq\frac{1}{L}\sum_{l=1}^{L}\log p_\theta(\mathbf{x}^{(i)}|\mathbf{z}^{(l)})\nabla_\phi\ln q_{\phi}(\mathbf{z}^{(l)}|\mathbf{x}^{(i)}), \ \mathbf{z}^{(l)}\sim q_{\phi}(\mathbf{z}|\mathbf{x}^{(i)})\tag{7}$

用采样方法所估计的导数会存在很大的方差。

3.2 AEVB算法

AEVB算法对SGVB估计 $\mathcal{L}_2$ 求导部分进行了改良，首先利用参数转换将对分布 $q_{\phi}(\mathbf{z}|\mathbf{x}^{(i)})$ 的采样转换为对正态分布 $\mathcal{N}(0,1)$ 的采样：

$z=\mu+\sigma \epsilon \tag{8}$

然后从 $N$ 个点的完整数据集 $\mathbf{X}$ 中采样出 $M = 100$ 个点的批数据集 $\mathbf{X}^M$ ，对于每个数据点采样 $L = 1$ 次估计导数，最后将 $M$ 个估计导数求和后乘以系数 $\frac{N}{M}$ 作为最终估计导数。

4.自编码器的训练

变分自编码器训练的损失函数包括变分下界 $\mathcal{L}(\mathbf{\theta},\mathbf{\phi};\mathbf{x})$ 以及重构损失 $||\mathbf{x}-f_{decoder}(\mathbf{z})||^2$

5.条件变分自编码器

变分自编码器可以根据任意输入 $\mathbf{z}$ 重构出与原始数据集相似的样本 $f_{decoder}(\mathbf{z})$ ，但无法指定样本类别。在条件变分自编码的训练阶段，编码器以及解码器都引入了类别数据（例如类别的one-hot向量），在测试阶段，解码器就可以根据类别数据输出指定类别的样本。