Auto-Encoding Variational Bayes论文阅读

Auto-Encoding Variational Bayes论文阅读

 Auto-Encoding Variational Bayes 算法主要是针对连续隐含变量的统计推断模型,因为统计推断模型中常常会遇到后验概率分布形式比较难以获得以及样本数据过大等困难,所以作者便提出了用变分推断的方法,结合自动编码器来对以前的算法进行改进,其改进方向主要是证明了Stochastic gradient methods(类似于一种随机梯度下降算法)可以用来对变分下界进行最优估计;并且可以利用参数下界的最优估计来对模型的后验概率分布进行推断。
 本文将跟随论文作者的思路,从变分方法的背景谈起,对比不同的算法,重点关注我们AEVB算法当中的SGVB(Stochastic Gradient Variational Bayes)估计方法。

方法

 根据作者的说法,AEVB算法对多种dataset都非常适用,为了解释方便,本文对样本集做出了如下的假设:
 样本集的 X = { x ( i ) } i = 1 N X=\lbrace x^{(i)}\rbrace_{i=1}^N X={ x(i)}i=1N是N个独立同分布的离散或者连续的样本,他们是通过某种随机过程产生的,我们假设他们的产生是源于一种我们目前无法观测到的随机变量z,z由如下过程产生:
(1)z的产生源于某种概率分布 p θ ∗ ( z ) p_{\theta^*}(z) pθ(z)
(2)x的产生源自于某种条件概率分布 p θ ∗ ( x ∣ z ) p_{\theta^*}(x|z) pθ(xz)
并且我们假设对于 θ \theta θ和z p θ ( z ) p_{\theta}(z) pθ(z) p θ ( x ∣ z ) p_{\theta}(x|z) pθ(xz)都是几乎处处可导。但是实际上对于 θ \theta θ和z的的情况,我们时常都是无法获得的。
 论文没有对其边缘分布或者后验概率分布做任何限制和假设,论文致力于提出一种比较通用的算法对
(1) p θ ( x ) = ∫ p θ ( z ) p θ ( x ∣ z ) p_{\theta}(x)=\int p_{\theta}(z)p_{\theta}(x|z) pθ(x)=pθ(z)pθ(xz)比较难以计算或者是后验概率 p θ ( z ∣ x ) = p θ ( x ∣ z ) p θ ( z ) p θ ( x ) p_{\theta}(z|x)=\frac {p_{\theta}(x|z)p_{\theta}(z)}{p_{\theta}(x)} pθ(zx)=pθ(x)pθ(xz)pθ(z)比较难以计算。这会导致似然估计的方法(likehood)以及EM算法,还有一些传统的VB算法全部无效。
(2)样本量过大,这会导致类似于Monte Carlo 算法等迭代速度过慢。
 算法需要解决以下三个相关问题:

  • 能够有效地利用ML或者MAP估计参数 θ \theta θ,并且通过参数本身地一些性质,使得我们可以在一定条件下,生成或者模仿产生数据。
  • 能够推理出在给定样本X的情况下潜在变量z的参数选择。
  • 能够得到关于变量x的样本分布,最好能够获得其先验估计,这有助于去进行其他的实验。
     文章提出了一种模型,利用 q ϕ ( z ∣ x ) q_{\phi}(z|x) qϕ(zx)来对 p θ ( x ∣ z ) p_{\theta}(x|z) pθ(xz),不同于直接给出 ϕ \phi ϕ的形式或者是利用Mean-field variational inference 的方式,它通过生成模型,将 ϕ \phi ϕ与它和参数 θ \theta θ之间的关系共同给出。
    这样的处理方式,就与编码理论有一些近似了,我们可以将 q ϕ ( z ∣ x ) q_{\phi}(z|x) qϕ(zx)看作一个概率编码器,给定一个数据点x,它能够产生一个z的概率分布,同时x可以从这个z的概率分布当中得出。而 p θ ( x ∣ z ) p_{\theta}(x|z) pθ(xz)则类似于一个解码器,给定一个相应的z,其可以得到一个x的概率分布。

数学理论基础介绍

MLE(ML)和MAP算法

MLE和MAP算法都是对参数进行估计的一种算法。
MLE算法是对于似然函数进行一个估计:

θ M L E = a r g max ⁡ θ P ( X ∣ θ ) = a r g max ⁡ θ ∏ i P ( x i ∣ θ ) \theta_{MLE}=arg \max_{\theta} P(X|\theta) \\ =arg \max_{\theta} \prod_i P(x_i|\theta) θMLE=argθmaxP(Xθ)=argθmaxiP(xiθ)

而MAP算法是对于其贝叶斯概率做一个估计
P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) ∝ P ( X ∣ θ ) P ( θ ) P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}\\ \propto P(X|\theta)P(\theta) P(θX)=P(X)P(Xθ)P(θ)P(Xθ)P(θ)
所以 θ M A P = a r g max ⁡ θ P ( X ∣ θ ) P ( θ ) = a r g max ⁡ θ ∑ i log ⁡ P ( x i ∣ θ ) + log ⁡ P ( θ ) \theta_{MAP}=arg \max_{\theta} P(X|\theta)P(\theta)\\ = arg \max_{\theta} \sum_i \log P(x_i|\theta)+\log P(\theta) θMAP=argθmaxP(Xθ)P(θ)=argθmaxilogP(xiθ)+logP(θ)

mean-field variational inference方法解释

 此方法出现在论文的2.1节当中,mean-field variational inference,它的核心思想也是用一个分布来近似得到 ϕ \phi ϕ的估计,与我们论文所述方法不同的是,此方法希望直接利用对KL散度 K L ( Q ∣ ∣ P ) = ∑ z ∈ Z q ϕ ( z ∣ x ) log ⁡ q ϕ ( z ∣ x ) p ( x ) p ( z , x ) KL(Q||P)=\sum_{z\in Z}q_{\phi}(z|x)\log \frac{q_{\phi}(z|x)p(x)}{p(z,x)} KL(QP)

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值