zedgraph 两点之间值_谈谈Variational inference和EM算法之间的关系

最新推荐文章于 2024-04-07 21:46:57 发布

weixin_39560064

最新推荐文章于 2024-04-07 21:46:57 发布

阅读量178

点赞数

文章标签： zedgraph 两点之间值

Variational inference （变分推断，以下简称VI）和Expectation maximization（期望极大化，以下简称EM）这两种算法实际上是密切相关的。实际上我们可以将EM看作VI的特殊形式。

以下首先简要谈一谈为什么需要这些方法，这些方法被用于解决什么问题（motivation），之后从First principle出发推导VI，然后看看为什么说EM是VI的特殊形式。

1 Motivation

对于

，我们有

。

如果我们想根据

推测隐变量

的概率，我们就需要计算如下的积分：

。然而

有时难以计算，尤其是对于高维的系统，因为高维系统里面的积分复杂度很高。

因此我们需要发展一种更加方便的方法来近似表达

。VI就是用函数

来近似表达

。

2 Method

2.1 Jensen's inequality

对于任何的凸函数（convex function）

，我们都有

。Fig 1是一个直观的特例，当自变量

的分布是在

两点的均匀分布的时候，从图中可以明显看出

。Jensen's inequality

取等号的条件是

，即

是一个常数。

Fig 1. 一个凸函数以及E[(f(X))]和f[E(X)]的取值比较，这里X的分布是在a和b两点的均匀分布（图片来自于Andrew Ng的讲义，见Reference &amp;amp;amp;amp;amp;amp;amp;amp;amp; Acknowledgement）

由于

是一个凹函数，即

是一个凸函数，所以满足

，取等号的条件是自变量

是一个常数。

之后我们要用到有关

的这些性质。

2.2 KL divergence & ELBO

先证明一个数学结论：对于任意的概率

（

是变量，

是参数），

（这里

是某个关于

的概率密度函数），我们有

其中的不等号来自于Jensen's inequality应用在凹函数

上的结论。由此我们知道，

对于上面的式子取等号的条件是

（也就是说在给定

的情况下二者的比例是一个常数，无论

取什么值），所以取等号的时候

（这是由于

是概率密度，因此满足归一化条件）。

由此我们可以定义KL divergence（记为

）和Evidence Lower BOund（简称为ELBO，记为

）：

由此可见KL divergence一定非负，而ELBO是

的下界。

KL divergence最小的时候等于0，此时

，这是根据Jensen不等式取等号的条件得出的。并且KL divergence越小，

越接近

。减小KL divergence等价于增大ELBO，因为我们要优化的目标函数是

，而

可以看作给定的量。

由此我们得到一个重要的结论：优化

来增大ELBO等价于优化

来逼近

。

以下我们通过极大化ELBO，从而训练得到一个好的函数

来近似表达

。

我们可以将ELBO的形式等价变换一下，得到另一种等价形式：

其中

是著名的Gibbs entropy。

*2.2.1 题外话——KL divergence和统计物理的一些联系

值得注意的是，KL divergence可以在统计物理里面找到对应的物理量，例如在这篇文章中：

Boltzmann generators: Sampling equilibrium states of many-body systems with deep learningscience.sciencemag.org

作者利用KL divergence训练出了一个生成模型，从而可以按照Boltzmann分布产生sample。其中训练是通过minimize KL divergence完成的。可以证明在这篇文章的物理背景下，KL divergence等价于free energy（二者差一个常数），因此极小化KL divergence等价于极小化free energy，而在统计物理上可以严格证明极小化free energy等价于Boltzmann distribution，因此从物理原理上，极小化KL divergence应当得到Boltzmann distribution。这是一个很好的例子，说明了机器学习和统计物理之间的一些联系。