变分自编码器（VAE）相关证明

最新推荐文章于 2024-05-01 00:11:08 发布

jony0917

最新推荐文章于 2024-05-01 00:11:08 发布

阅读量852

点赞数 22

文章标签：机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/137190806

版权

生成模型通过建模变量的联合分布，学习样本的生成过程。判别模型则是建模变量之间的映射关系。生成模型的优势在于：

生成模型是对物理规律深度理解，模型的可解释性高：我们对变量的生产过程提出假设，并通过观测数据的检测，最总接受或则推翻我们的假设，达到对世界运行规律的深度理解。
生成模型对变量间关系提出的假设，一旦假设被检验接受，模型揭示了变量间的因果关系：因果关系比相关关系的泛化能力更强，在不满足独立同分布条件下任然可以应用

VAE 模型便是这样的生成模型，VAE模型的优化目标即是所谓的ELBO Loss；这里对ELBO目标的推导如下，同时揭示ELBO与极大似然估计的关系：

$logp_{\theta}(x) = E_{x\sim q(z|x)}[logp_{\theta}(x)]$

$=E_{x\sim q(z|x)}[log(\frac{p_{\theta}(x,z)}{p_{\theta}(z|x)})]$

$E_{x\sim q(z|x)}[log(\frac{p_{\theta}(x,z)q_{\phi}(z|x)}{q_{\phi}(z|x)p_{\theta}(z|x)})]$

$E_{x\sim q(z|x)}[log(\frac{p_{\theta}(x,z)}{q_{\phi}(z|x)})] + E_{x\sim q(z|x)}[log(\frac{q_{\phi}(z|x)}{p_{\theta}(z|x)})]$

$E_{x\sim q(z|x)}[log(p_{\theta}(x,z)) - log(q_{\phi}(z|x))] + D_{KL}(q_{\phi}(z|x)||p_{\theta}(z|x))$

$\mathcal{L}_{\theta,\phi}(x) \triangleq E_{x\sim q(z|x)}[log(p_{\theta}(x,z)) - log(q_{\phi}(z|x))]$

$logp_{\theta}(x) - D_{KL}(q_{\phi}(z|x)||p_{\theta}(z|x))$

$\le logp_{\theta}(x)$

因此最大化 ELBO $\mathcal{L}_{\theta,\phi}(x)$ 等价于样本的极大似然估计 $p_{\theta}(x)$ 的下界。

$q_{\phi}(z|x)$ 模型的选择同城需要满足两个条件：

1、便于计算

2、便于采样

这两点限制了 $q_{\phi}(z|x)$ 的选择范围，满足这两点的一个常见模型是假设后验分布为各向独立的多维高斯分布：

$(\mu, log\sigma) = NeuralNet(x)$

$z\sim\mathcal{N}(\mu, \sigma)$

$logq_{\phi}(z|x) = log\mathcal{N}(z;\mu, \sigma)$

为了实现对 $\mu,\sigma$ 的梯度传导，以上模型通过重参数化技巧实现为：

$(\mu, log \sigma) = NeuralNet(x)$

$\epsilon \sim \mathcal{N}(0, I)$

$f(\epsilon, \mu, \sigma) = mu + \sigma\odot \epsilon$

$logq_{\phi}(z|x) = log\mathcal{N}(z;\mu, \sigma)$

各向独立的假设是比较强的假设，限制了模型的假设空间；在满足以上两点要求的前提下，为了提升模型的假设空间，一类做法是提升函数 $f(\epsilon)$ 的表达能力，并加入多层嵌套：

$f(\epsilon) = f_n(...f_2(f_1(\epsilon)))$

以往的研究者们提出了多种函数 $f$ ，但是这类做法遇到的一个问题是 $log(q_{\phi}(z|x))$ 的计算，当 $q_{\phi}(z|x)$ 分布比较复杂时， $z$ 的分布已经不是高斯分布。这里给出 $logq_{\phi}(z|x)$ 的计算方法，并通过证明揭示函数 $f$ 的设计原则：

$logq_{\phi}(z|x) = logp(\epsilon) - log|det(\frac{\partial z}{\partial \epsilon})|$

其中

$\epsilon \sim \mathcal{N}(0, I)$

$z=f(\epsilon, x,\phi)$

这里以一维随机变量为例，公式证明如下：

$F_Z(z|x)\triangleq P(Z < z|x)$

$P(f(\Epsilon, x, \phi) < z|x)$

$P(\Epsilon < f^{-1}(z)|x)$

$P(\Epsilon < f^{-1}(z))$

$=F_{\Epsilon}(f^{-1}(z))$

$=\int_{-\infin}^{f^{-1}(z)}p(\epsilon)d\epsilon$

$\frac{dF_Z(z|x)}{dz}$

$=\frac{d\int_{-\infin}^{f^{-1}(z)}p(\epsilon)d\epsilon}{dz}$

$=\frac{d\int_{-\infin}^{f^{-1}(z)}p(f^{-1}(z))df^{-1}(z)}{dz}$

$\frac{d\int_{-\infin}^{f^{-1}(z)}p(f^{-1}(z)}{df^{-1}(z)}\frac{df^{-1}(z)}{dz}$

$=\frac{\int_{-\infin}^{\epsilon}p(\epsilon)d\epsilon}{d\epsilon}\frac{d\epsilon}{dz}$

$p(\epsilon) * \frac{d\epsilon}{dz}$

以上证明我吗假定函数 $f(\epsilon, x,\phi)$ 递增函数，实际 $f$ 为任何可逆函数时，类似方式可证明：

$q(z|x)=p(\epsilon)|\frac{d\epsilon}{dz}|$

$logp(\epsilon) - log(|\frac{dz}{d\epsilon}|)$

对于多维随机变量，类似的可以证明：

$logq(\bold{z}|\bold{x}) = logp(\bold{\epsilon}) - log|det(\frac{\partial \bold{z}}{\partial \bold{\epsilon}})|$

关注

22
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
变分自编码器（VAE）相关证明

VAE 模型便是这样的生成模型，VAE模型的优化目标即是所谓的ELBO Loss；各向独立的假设是比较强的假设，限制了模型的假设空间；在满足以上两点要求的前提下，为了提升模型的假设空间，一类做法是提升函数。生成模型通过建模变量的联合分布，学习样本的生成过程。判别模型则是建模变量之间的映射关系。的分布已经不是高斯分布。的计算方法，并通过证明揭示函数。，但是这类做法遇到的一个问题是。等价于样本的极大似然估计。以往的研究者们提出了多种函数。因此最大化 ELBO。以上证明我吗假定函数。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。