《Auto-Encoding Variational Bayes》笔记

1 概述

  • 《Auto-Encoding Variational Bayes》这篇论文实际上是VAE网络的出处。
    该论文贡献主要在于2点:
  1. 提出了SGVB estimator,用以对ELBO进行较好的估计(使用作者提出的reparameterization方法),并且便于求导,方便采用stochastic gradient的方法进行参数的优化。
  2. 在独立同分布且具有连续隐变量的数据集中,对于latent variables的posterior的推断可以通过fit recognition model的方式进而实现,而fit的时候,所采用的estimator就是作者所提出的SGVB estimator。
  • 针对作者提出的这个estimator,和其相应的优化方法,本文作者将这些方法应用在了神经网络上,与Auto-encoder相结合,于是得到了VAE网络。之后的实验都是以VAE网络为基础进行的。

2 问题

  • 由于在很多时候,continuous latent variables/parameters的posterior都是intractable的,所以需要采用approximate posterior,来代替真实的posterior。通常进行近似推断的方法是mean-field approach,也就是说,对所有隐变量之间进行解耦,使它们的联合概率分布变成每一个隐变量的边缘概率分布的乘积形式。然而,如果要采用这种推断方法,那么我们也必须能求得approximate posterior的期望的解析式,然而这个解析式往往是不可得的。
  • 实际上,当我们采用近似推断的方法去求得approximate posterior的时候,我们的目标就已经着眼于ELBO上了。当我们得到ELBO之后,对它采用梯度上升的方法进行参数优化,即可得到一个较优的结果。然而一般情况下,我们在推导ELBO的时候都要遇到一些“期望”的表达式,而此时就需要我们得到这些期望表达式的解析解,否则求导无法进行下去,而这也是传统mean-field方法中遇到的问题。

3 解决方法概述

  • 对于这个问题,本文提出了SGVB (unbiased) estimator,用于对ELBO的估计,并提出了一种叫作reparameterization的方法,用于对SGVB estimator的计算,以及对SGVB estimator 求导后结果的计算。
  • 与此同时,本文又提出了AEVB算法,用以通过SGVB estimator,对recognition model进行优化。而VAE就是将Neural Network应用在recognition model上的特例。

4 解决方法详述

  • 本部分将详细介绍本文提出的方法,首先对本文所要解决的问题进行描述,然后对目标函数进行推导,最后将对本文提出的SGVB estimator,AEVB algorithm和reparameterization trick方法进行描述。

4.1 所要解决问题的具体描述

  • 首先是所要研究数据集的定义:本文所规定的数据集: X = { x ( i ) } i = 1 N \bm{X}=\{\bm{x}^{(i)}\}_{i=1}^N X={ x(i)}i=1N, 其中包含着N个i.i.d的数据x(该数据可以是离散或连续的)。并且本处假设该数据是从一个random process中生成的,这个random process中包含着一个continuous latent variable z。

  • 该生成过程定义如下:

    1. latent variable z ( i ) z^{(i)} z(i)从该variable所服从的prior p θ ∗ ( z ) p_{\theta^*}(z) pθ(z)中生成出来。
    2. 一个datapoint x ( i ) x^{(i)} x(i)从该variable所服从的conditional distribution p θ ∗ ( x ∣ z ) p_{\theta^*}(x|z) pθ(xz)中sample出来。
  • 这里假设prior p θ ∗ ( z ) p_{\theta^*}(z) pθ(z) 和 likelihood p θ ∗ ( x ∣ z ) p_{\theta^*}(x|z) pθ(xz) 都是从parametric family of distribution p θ ( z ) p_{\theta}(z) pθ(z) p θ ( x ∣ z ) p_{\theta}(x|z) pθ(xz) 中得到的。并且这两个distribution的PDFs对于 θ \theta θ 和 z 都是处处可导的。

  • 但实际上 θ ∗ \theta^{*} θ z ( i ) z^{(i)} z(i) 都是未知的(因而也是本研究工作中将要解求得的数据)。

  • 在对于这些参数的实际计算中遇到了如下2个问题:

    1. Intractability:marginal likelihood p θ ( x ) = ∫ p θ ( x ∣ z ) p θ ( z ) d z p_{\theta}(x)=\int p_{\theta}(x|z)p_{\theta}(z)dz pθ(x)=pθ(xz)pθ(z)dz 是intractable的,这就导致了posterior p θ ( z ∣ x ) = p θ ( x ∣ z ) p θ ( z ) / p θ ( x ) p_{\theta}(z|x)=p_{\theta}(x|z)p_{\theta}(z)/p_{\theta}(x) pθ(zx)=pθ(xz)pθ(z)/pθ(x) 是intractable的。这些intractable同时导致了reasonable mean-field VB algorithms同样也是intractable的。
    2. A large dataset:在大规模dataset的前提下,batch optimization非常costly,Monte Carlo EM算法由于需要在单个datapoint上进行多次loops,因此本文最终使用minibatch的方法,在large dataset下进行参数优化。
  • 为了解决如上的问题,本文提出了1个方法,用以解决如下3个相关的问题(个人理解是,上述的问题描述是一个概述,概述某种“场景”,而此处将该“场景”进行明确,明确到三个具体的问题上来,所以问题就着眼于这3个具体的问题进行解决)

    1. 通过高效的ML或MAP方法进行参数 θ \theta θ 的估计。参数 θ \theta θ 可以帮助我们高效地进行hidden random process,并且generate artificial data,用以resemble real data。
    2. 在given一个datapoint x(observed value)和 parameter θ \theta θ之后,对variable z的后验分布进行近似推断。
    3. 对变量x的边缘分布的近似推断。
  • 为了解决上述三个问题,本文作者引入了一个被称为"recognition model"的distribution q ϕ ( z ∣ x ) q_{\phi}(z|x) qϕ(zx),用以对z的posterior p θ ( z ∣ x ) p_{\theta}(z|x) pθ(zx) 进行近似。此外,该近似并没有采用mean-field approach,从而也就没有用一种closed-form的形式表示mean-field approach下该distribution q的expectation,而是通过作者提出的一种新的方式,jointly training,从而得到模型中的parameters θ \theta θ ϕ \phi ϕ

4.2 变分下界推导

  • 本部分实际上都来自于先前一些工作中的内容,并不包含作者本人的工作。作者实际上是在这些工作的基础上,对模型加以改进的。
  • 根据i.i.d条件可知,在整个数据集上,datapoint x的marginal log-likelihood实际上是各个datapoint的marginal log-likelihood之和,即 l o g   p θ ( x ( 1 ) , … , x ( N ) ) = ∑ i = 1 N l o g   p θ ( x ( i ) ) log\ p_{\theta}(x^{(1)}, \dots, x^{(N)})=\sum_{i=1}^Nlog\ p_{\theta}(x^{(i)}) log pθ(x(1),,x(N))=i=1Nlog pθ(x(i))。因此,对于每一个datapoint的marginal log-likelihood我们可以写作:
    l o g   p θ ( x ( i ) ) = D K L ( q ϕ ( z ∣ x ( i ) ) ∣ ∣ p θ ( z ∣ x ( i ) ) ) + L ( θ , ϕ ; x ( i ) ) log\ p_{\theta}(x^{(i)})=D_{KL}(q_{\phi}(z|x^{(i)})||p_{\theta}(z|x^{(i)}))+\mathcal{L}(\theta, \phi; x^{(i)}) log pθ(x(i))=DKL(qϕ(zx(i))pθ(zx(i)))+L(θ,ϕ;x(i))
  • 其中右式的第二项是变分下界(ELBO),是marginal log-likelihood的lower bound(可以通过Jesen不等式证明得到):
    l o g   p θ ( x ( i ) ) ≥ L ( θ , ϕ ; x ( i ) ) = E q ϕ ( z ∣ x ) [ − l o g   q ϕ ( z ∣ x ) + l o g   p θ ( x , z ) ] log\ p_{\theta}(x^{(i)})\geq\mathcal{L}(\theta, \phi; x^{(i)})=\mathbb{E}_{q_{\phi}(z|x)}[-log\ q_{\phi}(z|x)+log\ p_{\theta}(x,z)] log pθ(x
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值