第十九章 近似推断 Approximate Inference
我们通常使用推断这个术语来指代给定一些其他变量的情况下计算某些变量概率分布的过程。
许多概率模型很难训练的原因是很难进行推断。
在深度学习中,通常我们有一系列可见变量 v v v和一系列潜变量 h h h。
推断困难通常是指难以计算 p ( h ∣ v ) p(h\mid v) p(h∣v)或其期望。
对于受限玻尔兹曼机和概率PCA,仅含一个隐藏层的简单图模型,定义成易于计算 p ( h ∣ v ) p(h\mid v) p(h∣v)或其期望的形式。
大多数具有多层隐藏变量的图模型的后验分布都很难处理,精确推断算法需要指数量级的运行时间。
稀疏编码,尽管只有单层,也存在着这样的问题。
本章中将会介绍几个用来解决这些难以处理的推断问题的技巧。我们会学习到:
- 证据下界 L ( v , θ , q ) L(v,\theta,q) L(v,θ,q)是 log p ( v ; θ ) \log p(v;\theta) logp(v;θ)的一个下界
- 推断可以看作是关于分布 q q q最大化 L L L 的过程
- EM算法在给定了分布 q q q的条件下能够进行大学习步骤
- 基于MAP推断的学习算法则是学习一个 p ( h ∣ v ) p(h \mid v) p(h∣v)的点估计而非推断整个完整的分布
把推断视作优化问题
精确推断问题可以描述为一个优化问题,有许多方法正是由此解决了推断的困难。 通过近似这样一个潜在的优化问题,我们往往可以推导出近似推断算法。
假设一个包含可见变量 v v v和潜变量 h h h的概率模型。 我们希望计算观察数据的对数概率 log p ( v ; θ ) \log p(v;\theta) logp(v;
本章探讨深度学习中难以处理的推断问题,介绍了证据下界(ELBO)的概念,它作为logp(v;θ)的下界,以及如何通过优化分布q来逼近。此外,还讲解了期望最大化(EM)算法,它在潜变量模型中用于训练,通过E步和M步交替迭代来学习近似后验分布。
最低0.47元/天 解锁文章
3312

被折叠的 条评论
为什么被折叠?



