变分自编码器(VAE)

生成模型中的概率密度估计问题

生成模型通过学习样本数据的概率分布来生成新的样本数据,包含两个基本功能,密度估计和生成样本。

密度估计可以采用EM算法,其中的E步需要计算后验概率密度p(z|x),当图模型中隐变量是一维离散变量时,后验概率密度可直接计算,若隐变量更加复杂,则需要使用变分推断,采用较为简单的分布q(z)来近似。但有时p(z|x)比较复杂时,近似效果不佳,这时又可考虑采用神经网络来近似。

变分自编码器介绍

假设一个生成模型中含有隐变量,观测变量是一个高维随机向量X,隐变量是相对低维的随机向量Z,生成模型可以描述为(实线为生成模型,虚线为变分近似):

 这个生成模型的联合概率密度可以分解为:

p(\mathbf{x,z};\theta)=p(\mathbf{z};\theta)p(\mathbf{x|z;}\theta)

其中p(\mathbf{z};\theta)为隐变量的先验分布的概率密度函数,p(\mathbf{x|z;}\theta)为为已知\mathbf{z}时观测变量\mathbf{x}的条件概率密度函数,\theta表示两个概率密度的参数。我们可以假设p(\mathbf{z};\theta)p(\mathbf{x|z;}\theta)为某种参数化的分布族,比如正态分布。这些分布的形式已知,只是参数\theta未知,可以通过最大化似然来进行估计。

给定一个样本x,其对数边际似然函数可以分解为:

\log{p\left ( \mathbf{x};\theta \right )} = ELBO\left ( q,\mathbf{x};\theta,\phi \right ) +KL\left ( q\left ( \mathbf{z} ;\phi\right )||p\left (\mathbf{ z|x};\theta \right )\right )

其中,q\left ( \mathbf{z} ;\phi\right )为额外引入的变分密度函数,参数为\phiELBO\left ( q,\mathbf{x};\theta,\phi \right )为证据下界,其表达式为:

\displaystyle ELBO\left ( q,\mathbf{x};\theta,\phi \right )=\int_zq\left (\mathbf{ z};\phi \ \right )\log{\frac{p\left (\mathbf{z|x};\theta\right )}{q\left ( \mathbf{z};\phi \ \right )}}dz

最大化对数边际似然可以使用广义EM算法来求解,其步骤为

1.E步,固定参数\theta,寻找一个变分密度函数q\left ( \mathbf{z} ;\phi\right )来近似后验概率密度函数p\left (\mathbf{ z|x};\theta \right )

2.M步,固定q\left ( \mathbf{z} ;\phi\right ),寻找\theta来最大化证据下界ELBO\left ( q,\mathbf{x};\theta,\phi \right )

在E步中,理论上最优的q\left ( \mathbf{z} ;\phi\right )就是p\left (\mathbf{ z|x};\theta \right )

\displaystyle p(\mathbf{z|x};\theta) = \frac{p(\mathbf{x|z};\theta)p(\mathbf{z};\theta)}{\int_{\mathbf{z}}p(\mathbf{x|z};\theta)p(\mathbf{z};\theta)d\mathbf{z}}

这样,就回到了文章开头提到的后验概率密度估计的问题,更进一步,p(\mathbf{x|z})这个已知\mathbf{z}时观测变量\mathbf{x}的条件概率密度函数一般也比 较复杂,很难直接用已知的分布族函数进行建模。

变分自编码器是一种深度生成模型,其基本思想就是利用神经网络来近似两个复杂的概率密度函数。

1.用神经网络来估计变分密度函数 q\left ( \mathbf{z} ;\phi\right ),称为推断网络.理论上 q\left ( \mathbf{z} ;\phi\right )可 以不依赖\mathbf{x}.但由于q\left ( \mathbf{z} ;\phi\right )的目标是近似后验分布p\left (\mathbf{ z|x};\theta \right ),其和\mathbf{x}相关,因此变分密度函数一般写为q\left ( \mathbf{z|x} ;\phi\right )。推断网络的输入为\mathbf{x},输出为变分密度函数q\left ( \mathbf{z|x} ;\phi\right )

2.用神经网络来估计概率分布p(\mathbf{x|z};\theta),称为生成网络.生成网络的输入为\mathbf{z},输出为概率分布p(\mathbf{x|z};\theta)

将推断网络和生成网络合并就得到了变分自编码器的整个网络结构。(图片来源于邱锡鹏《神经网络与深度学习》)

 其中实线表示网络计算操作,虚线表示采样操作。

推断网络

为了简单起见,假设q\left ( \mathbf{z|x} ;\phi\right )服从对角化协方差的高斯分布

q\left ( \mathbf{z|x} ;\phi\right ) = N(\mathbf{z};\mu_I,\sigma_I^2I)

其中\mu_I\sigma_I^2I是高斯分布的均值和方差,可以通过推断网络f_I(\mathbf{x};\phi)来预测,

\displaystyle \begin{bmatrix} \mu_I\\ \sigma_I^2 \end{bmatrix} = f_I(\mathbf{x};\phi)

其中的f_I(\mathbf{x};\phi)可以是一般的全连接网络或者卷积神经网络,比如一个两层的全连接网络,

\begin{aligned} \mathbf{h}& = \sigma(\mathbf{W^{(1)}x+b^{(1)}})\\ \mu_I& =\mathbf{W^{(2)}h+b ^{(2)}}\\ \sigma_I^2 &=softplus(\mathbf{W^{(3)}h+b ^{(3)}}) \end{aligned}

\phi代表的是推断网络的所有网络参数\{W^{(1)},W^{(2)},W^{(3)},b^{(1)},b^{(2)},b^{(3)}\},而softplus(x) = \log{(1+e^x)}\sigmasoftplus是激活函数,\sigmaLogistic函数,而使用softplus是因为方差总是非负的,实际中可以采用一个线性层来预测\log{(\sigma_I^2 )}

推断网络f_I(\mathbf{x};\phi)的目标是是使得q\left ( \mathbf{z|x} ;\phi\right )尽可能接近真实的后验p\left (\mathbf{ z|x};\theta \right ), 需要找到一组网络参数\phi^* 来最小化两个分布的KL散度,即

\phi^* = \underset{\phi}{argmin} KL(q\left ( \mathbf{z|x} ;\phi\right )||p\left (\mathbf{ z|x};\theta \right ))

然而,直接计算上面的KL散度是不可能的,因为p\left (\mathbf{ z|x};\theta \right )一般无法计算.传统方法是利用采样或者变分法来近似推断。基于采样的方法效率很低且估计也不是很准确,所以一般使用的是变分推断方法, 即用简单的分布 q 去近似复杂的分布 p\left (\mathbf{ z|x};\theta \right )。但是,在深度生成模型中,p\left (\mathbf{ z|x};\theta \right )通常比较复杂,很难用简单分布去近似。因此,我们需要找到一种间接计算方法。由于

\log{p\left ( \mathbf{x};\theta \right )} = ELBO\left ( q,\mathbf{x};\theta,\phi \right ) +KL\left ( q\left ( \mathbf{z} ;\phi\right )||p\left (\mathbf{ z|x};\theta \right )\right )

因此

\begin{aligned} \phi^* &= \underset{\phi}{argmin}\log{p\left ( \mathbf{x};\theta \right )} -ELBO\left ( q,\mathbf{x};\theta,\phi \right )\\ &=\underset{\phi}{argmax}ELBO\left ( q,\mathbf{x};\theta,\phi \right )\end{aligned}

即目标转换为寻找一组网络参数 \phi^* 使得证据下界 ELBO\left ( q,\mathbf{x};\theta,\phi \right )最大,可以看作EM算法的E步。这和变分推断中的转换类似,笔者曾专门写了一篇博客讲述变分推断

生成网络

生成模型的联合分布 p(\mathbf{x,z};\theta)=p(\mathbf{z};\theta)p(\mathbf{x|z;}\theta) 可以分解为两部分:隐变量 𝒛 的先验分布 p(\mathbf{z};\theta)和条件概率分布p(\mathbf{x|z;}\theta)

先验分布p(\mathbf{z};\theta),为简单起见,一般假设隐变量 \mathbf{z}的先验分布为各向同性的标准高斯分布N(\mathbf{z};0,I)。隐变量𝒛的每一维之间都是独立的。

条件概率分布p(\mathbf{x|z;}\theta),  条件概率分布p(\mathbf{x|z;}\theta)可以通过生成网络来建模。为简单起见,我们同样用参数化的分布族来表示条件概率分布p(\mathbf{x|z;}\theta),这些分布族的参数可以用生成网络计算得到。

根据变量\mathbf{x}的类型不同,可以假设p(\mathbf{x|z;}\theta)服从不同的分布族。

1.如果 x\in \{0,1\}^D 是 D 维的二值的向量,比如词袋向量,可以假设p(\mathbf{x|z;}\theta)服从多变量的伯努利分布,即

\begin{aligned} p(\mathbf{x|z;}\theta)&=\prod_{d=1}^{D} p(\mathbf{x_d|z;}\theta)\\ &=\prod_{d=1}^{D} \gamma _d^{x_d}(1-\gamma _d)^{1-x_d} \end{aligned}

其中\gamma_d可以被定义为p(\gamma_d=1|z;\theta),是第d维分布的参数,分布的参数\gamma =[\gamma_1,\gamma_2,......,\gamma_D]^T可以通过生成网络来预测。

2.如果\mathbf{x}\in \mathbb{R}^DD维的连续向量,可以假设p(\mathbf{x|z;}\theta)服从对角化协方差的高斯分布,即

p(\mathbf{x|z;}\theta) = N(\mathbf{x};\mu_G,\sigma_G^2I)

其中\mu_G\in \mathbb{R}^D,\sigma_G\in \mathbb{R}^D同样可以用生成网络来预测。

生成网络f_G(\mathbf{z};\theta)的目标是找到一组网络参数\theta^*来最大化证据下界ELBO\left ( q,\mathbf{x};\theta,\phi \right ),即

\theta^* = \underset{\theta}{argmax}ELBO\left ( q,\mathbf{x};\theta,\phi \right )

可以看作EM算法的M步。

汇总

推断网络和生成网络的目标都为最大化证据下界ELBO\left ( q,\mathbf{x};\theta,\phi \right ).因此,变分自编码器的总目标函数为

\begin{aligned} \underset{\theta,\phi}{max}ELBO\left ( q,\mathbf{x};\theta,\phi \right ) &= \underset{\theta,\phi}{max}E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log{\frac{p(\mathbf{x|z};\theta)p(\mathbf{z};\theta)}{q(\mathbf{z};\phi)}}\\ &=\underset{\theta,\phi}{max}E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)}-KL(q(\mathbf{z|x};\phi)||p(\mathbf{z};\theta)) \end{aligned}

其中,p(\mathbf{z};\theta)为隐变量的先验分布,\theta,\phi分别为生成网络和推断网络的网络参数

分别来看公式里的两项,

1.公式的第一项期望可以使用采样的方法进行近似计算,根据每个样本\mathbf{x},根据q(\mathbf{z|x};\phi)采集M\mathbf{z^{(m)}},1\leq m\leq M,这时,有

\displaystyle E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)} \approx \frac{1}{M}\sum_{m=1}^{M}log {p(\mathbf{x|z^{(m)}};\theta)}

但是这样计算存在一个问题,就是期望 E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)} 依赖于参数 \phi ,在上面的计算中,这个期望变得与 \phi 无关,当使用梯度下降法来学习参数时,期望 E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)} 关于 \phi 的梯度为0,这种情况是由于变量 \mathbf{z} 和参数 \phi 之间不是直接的确定性关 系,而是一种“采样”关系。可以通过重参数化技巧进行解决,将随机性抽离,从而找到变量 \mathbf{z} 和参数 \phi之 间的确定性函数关系,即,引入一个分布为 p(\varepsilon ) 的随机变量 \varepsilon ,而  \mathbf{z}\overset{\Delta}{=}g(\varepsilon ,\phi) ,这样,我们实际上还是要对 \varepsilon 采样,但是确保了可以对参数 \phi 进行求导,即随机变量 \varepsilon 代表了隐变量 \mathbf{z} 的随机性。笔者之前有过思考,不一定正确,即如果需要使用重参数化技巧,那么需要假设隐变量 \mathbf{z} 服从的分布q(\mathbf{z|x};\phi)属于距离尺度族分布,即两个分布之间可以通过在其图像上进行伸缩变化或位置移动来相互转换,而其参数正好规定了这些变化,比如一元高斯分布的参数\mu\sigma分别规定了概率密度函数图像最高点的x轴位置和图像的伸缩情况,\sigma越大,图像越扁平,反之,\sigma越小,图像越瘦高。这样,我们就可以使\varepsilon服从标准正态分布,其参数可以将其变成q(\mathbf{z|x};\phi)(假设q(\mathbf{z|x};\phi)也服从高斯分布)。即\varepsilon\sim N(0,I),而\mathbf{z = \mu+\varepsilon \odot \sigma} =g(\varepsilon ,\phi)。从而,期望E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)}的计算可以重写为

\displaystyle E_{\mathbf{ \varepsilon }\sim N(0,I)}\log {p(\mathbf{x|g(\varepsilon,\phi)};\theta)} \approx \frac{1}{M}\sum_{m=1}^{M}\log {p(\mathbf{x} | g(\varepsilon^{(m)} ,\phi);\theta)}

2.公式的第二项KL散度一般可以直接计算,当q(\mathbf{z|x};\phi)p(\mathbf{z};\theta)都属于正态分布时,存在解析解。给定D维空间中的两个正态分布N(\mu_1,\Sigma _1)N(\mu_2,\Sigma _2),其KL散度为

KL\mathbf{(N(\mu_1,\Sigma _1)||N(\mu_2,\Sigma _2))=\frac{1}{2}(tr(\Sigma _2^{-1}\Sigma _1)+(\mu_2-\mu_1)^{T}\Sigma _2^{-1}(\mu_2-\mu_1)-D+\log{\frac{|\Sigma _2|}{|\Sigma _1|}})}

其中tr(\cdot )表示矩阵的迹,矩阵的“迹”为主对角线(从左上方至右下方的对角线)上各个元素的总和。|\cdot |表示矩阵的行列式。关于其推导,笔者打算再写一篇文章来做记录。

这样,当p(\mathbf{z};\theta) = N(\mathbf{z};0,I)以及q(\mathbf{z|x};\phi) =N(z;\mu_I,\sigma_I^{2}I) 时,

KL(q(\mathbf{z|x};\phi ||p(\mathbf{z};\theta))=\frac{1}{2}(tr(\sigma_I^2I)+\mu_I\mu_I^T-d-\log{|\sigma_I^2I|})

其中\mu_I\sigma_I 为推断网络f_I(\mathbf{x};\phi)的输出。

训练

通过重参数化,变分自编码器可以通过梯度下降法来学习参数,给定一个数据集 D= \{x^{(n)}\}^N_{n=1} ,对于每个样本x^{(n)},随机采样 M 个变量 \varepsilon ^{(n,m)}, 1\leq m\leq M,并通过公式\mathbf{z = \mu+\varepsilon \odot \sigma}计算 \mathbf{z }^{(n,m)}。变分自编码器的目标函数近似为

\mathbf{\displaystyle f(\phi,\theta;D) = \sum_{n=1}^{N}( \frac{1}{M}\sum_{m=1}^{M}\log {p(\mathbf{x}^{(n)} | z^{(n,m)} ;\theta)}-KL(q(\mathbf{z|x^{(n)}};\phi) ||N(\mathbf{z};0,I))}

如果采用随机梯度方法,每次从数据集中采集一个样本 \mathbf{x}和一个对应的随机变量\varepsilon,并进一步假设p(x|z;\theta)服从多变量的伯努利分布\prod_{d=1}^{D} \gamma _d^{x_d}(1-\gamma _d)^{1-x_d},其中\gamma是生成网络f_G(\mathbf{z};\theta)的输出,\lambda为控制方差的超参数,则目标函数可以简化为

f(\phi,\theta;x) = -\mathbf{x}\log{\mathbf{\gamma}}+\lambda KL(N(\mu_I,\sigma _I)||N(0,I))

其中第一项可以近似看作输入 x 的重构正确性,第二项可以看作正则化项,\lambda可以看作正则化系数。变分自编码器的训练过程如图(图片来源于邱锡鹏《神经网络与深度学习》)

 参考资料

《神经网络与深度学习》邱锡鹏icon-default.png?t=N7T8https://nndl.github.io/

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值