Auto-Encoding Variational Bayes论文阅读

最新推荐文章于 2024-03-23 17:45:15 发布

填2

最新推荐文章于 2024-03-23 17:45:15 发布

阅读量928

点赞数 2

分类专栏：论文阅读文章标签：变分编码器 VAE

本文链接：https://blog.csdn.net/qq_40746182/article/details/102985457

版权

Auto-Encoding Variational Bayes论文阅读

Auto-Encoding Variational Bayes论文阅读
- 方法
数学理论基础介绍
算法
- 对隐含变量z的表述
- 核心算法
算法应用——Variational Auto-Encoder
代码和应用分析
心得总结

Auto-Encoding Variational Bayes论文阅读

Auto-Encoding Variational Bayes 算法主要是针对连续隐含变量的统计推断模型，因为统计推断模型中常常会遇到后验概率分布形式比较难以获得以及样本数据过大等困难，所以作者便提出了用变分推断的方法，结合自动编码器来对以前的算法进行改进，其改进方向主要是证明了Stochastic gradient methods（类似于一种随机梯度下降算法）可以用来对变分下界进行最优估计；并且可以利用参数下界的最优估计来对模型的后验概率分布进行推断。
本文将跟随论文作者的思路，从变分方法的背景谈起，对比不同的算法，重点关注我们AEVB算法当中的SGVB（Stochastic Gradient Variational Bayes）估计方法。

方法

根据作者的说法，AEVB算法对多种dataset都非常适用，为了解释方便，本文对样本集做出了如下的假设：
样本集的 $X=\lbrace x^{(i)}\rbrace_{i=1}^N$ 是N个独立同分布的离散或者连续的样本，他们是通过某种随机过程产生的，我们假设他们的产生是源于一种我们目前无法观测到的随机变量z，z由如下过程产生：
（1）z的产生源于某种概率分布 $p_{\theta^*}(z)$ 。
（2）x的产生源自于某种条件概率分布 $p_{\theta^*}(x|z)$ 。
并且我们假设对于 $\theta$ 和z $p_{\theta}(z)$ 和 $p_{\theta}(x|z)$ 都是几乎处处可导。但是实际上对于 $\theta$ 和z的的情况，我们时常都是无法获得的。
论文没有对其边缘分布或者后验概率分布做任何限制和假设，论文致力于提出一种比较通用的算法对
（1） $p_{\theta}(x)=\int p_{\theta}(z)p_{\theta}(x|z)$ 比较难以计算或者是后验概率 $p_{\theta}(z|x)=\frac {p_{\theta}(x|z)p_{\theta}(z)}{p_{\theta}(x)}$ 比较难以计算。这会导致似然估计的方法（likehood）以及EM算法，还有一些传统的VB算法全部无效。
（2）样本量过大，这会导致类似于Monte Carlo 算法等迭代速度过慢。
算法需要解决以下三个相关问题：

能够有效地利用ML或者MAP估计参数 $\theta$ ，并且通过参数本身地一些性质，使得我们可以在一定条件下，生成或者模仿产生数据。
能够推理出在给定样本X的情况下潜在变量z的参数选择。
能够得到关于变量x的样本分布，最好能够获得其先验估计，这有助于去进行其他的实验。
文章提出了一种模型，利用 $q_{\phi}(z|x)$ 来对 $p_{\theta}(x|z)$ ，不同于直接给出 $\phi$ 的形式或者是利用Mean-field variational inference 的方式，它通过生成模型，将 $\phi$ 与它和参数 $\theta$ 之间的关系共同给出。
这样的处理方式，就与编码理论有一些近似了，我们可以将 $q_{\phi}(z|x)$ 看作一个概率编码器，给定一个数据点x，它能够产生一个z的概率分布，同时x可以从这个z的概率分布当中得出。而 $p_{\theta}(x|z)$ 则类似于一个解码器，给定一个相应的z，其可以得到一个x的概率分布。

数学理论基础介绍

MLE(ML)和MAP算法

MLE和MAP算法都是对参数进行估计的一种算法。
MLE算法是对于似然函数进行一个估计：

$\theta_{MLE}=arg \max_{\theta} P(X|\theta) \\ =arg \max_{\theta} \prod_i P(x_i|\theta)$

而MAP算法是对于其贝叶斯概率做一个估计
$P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}\\ \propto P(X|\theta)P(\theta)$
所以 $\theta_{MAP}=arg \max_{\theta} P(X|\theta)P(\theta)\\ = arg \max_{\theta} \sum_i \log P(x_i|\theta)+\log P(\theta)$

mean-field variational inference方法解释

此方法出现在论文的2.1节当中，mean-field variational inference，它的核心思想也是用一个分布来近似得到 $\phi$ 的估计，与我们论文所述方法不同的是，此方法希望直接利用对KL散度 $KL(Q||P)=\sum_{z\in Z}q_{\phi}(z|x)\log \frac{q_{\phi}(z|x)p(x)}{p(z,x)}$

最低0.47元/天解锁文章

填2

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Auto-Encoding Variational Bayes论文阅读

Auto-Encoding Variational Bayes论文阅读Auto-Encoding Variational Bayes论文阅读方法数学理论基础介绍MLE(ML)和MAP算法mean-field variational inference方法解释变分下界的推理KL散度的数学推导算法对隐含变量z的表述核心算法算法应用——Variational Auto-EncoderAuto-Enco...
复制链接

扫一扫