第十九章 近似推断 Approximate Inference
2020-4-13 深度学习笔记19 - 近似推断 1 (把推断视作优化问题-证据下界,期望最大化EM-最大化下界 )
2020-4-14 深度学习笔记19 - 近似推断 2 (最大后验推断MAP和稀疏编码 )
变分推断和变分学习Variational Inference and Learning
关于变分推断可以参考https://zhuanlan.zhihu.com/p/48713461
变分学习
的核心思想就是在一个关于 q q q的有约束的分布族上最大化 L L L。 选择这个分布族时应该考虑到计算 E q log p ( h , v ) E_q \log p(h,v) Eqlogp(h,v)的难易度。
一种常用的变分学习的方法是加入一些限制使得 q q q是一个因子分布:
q ( h ∣ v ) = ∏ i q ( h i ∣ v ) q(h∣v)=\prod_iq(h_i∣v) q(h∣v)=i∏q(hi∣v)
这被称为均值场方法
。
变分方法的优点是我们不需要为分布 q q q设定一个特定的参数化形式。我们设定它如何分解,之后通过解决优化问题来找出在这些分解限制下最优的概率分布。
- 离散型潜变量:使用传统的优化技巧来优化描述分布 q q q的有限个变量。
- 连续型潜变量:使用一个被称为
变分法
的数学分支工具来解决函数空间上的优化问题。 然后决定哪一个函数来表示分布 q q q。
变分法是”变分学习”或者”变分推断”这些名字的来因,尽管当潜变量是离散时变分法并没有用武之地。 当遇到连续型潜变量时,变分法不需要过多地人工选择模型,是一种很有用的工具。 我们只需要设定分布 q q q如何分解,而不需要去猜测一个特定的能够精确近似原后验分布的分布 q q q。
在学习算法中使用近似推断会影响学习的过程,反过来学习过程也会影响推断算法的准确性。
训练算法倾向于朝使得近似推断算法中的近似假设变得更加真实的方向来适应模型。
因为 L ( v , θ , q ) L(v,\theta,q) L(v,θ,q)被定义成 log p ( v ; θ ) − D KL ( q ( h ∣ v ) ∥ p ( h ∣ v ; θ ) ) \log p(v;\theta) - D_{\text{KL}} (q(h\mid v) \Vert p(h\mid v;\theta) ) logp(v;θ)−DKL(q(h∣v)∥p(h∣v;θ)),我们可以认为关于 q q q最大化 L L L的问题等价于(关于 q q q)最小化 D KL ( q ( h ∣ v ) ∥ p ( h ∣ v ) ) D_{\text{KL}}(q(h\mid v)\Vert p(h\mid v)) D