指数分布的期望和方差_期望传播算法EP详细介绍(expectation propagation)以及算法举例...

最新推荐文章于 2024-06-17 00:44:25 发布

weixin_39895862

最新推荐文章于 2024-06-17 00:44:25 发布

阅读量2k

点赞数

文章标签：指数分布的期望和方差

一、前言

在机器学习问题中，从观测变量推测潜变量或者说计算潜变量的后验分布

是非常重要的一类问题，关于什么是潜变量，可以参考我之前一篇文章的第二节。

很多时候，因为潜变量z的维度很高，在z为离散时导致分母里这个求和很难算，又或者是在连续时因为分母积分符号里的表达式很复杂，导致这个积分没有解析解。从而导致后验分布很难得到，这个时候我们就要采取近似的办法来算后验(近似推理approximate inference)。

approximate inference常用的思路有两种，一种叫做stochastic approximate，就是通过蒙特卡洛采样的方法来做，另一种叫deterministic approximations，思想是用简单的分布

来近似后验。stochastic approximate通过采样的方法优点是只要采样数够多，精度就高，缺点是计算量大；deterministic approximations的优点是计算简单，缺点是不够精确。这里我们重点介绍deterministic approximations的两种算法。

期望传播算法是deterministic approximations方法的一种，常见的deterministic approximations方法还有变分推理(variational inference)。

二、expectation propagation(EP)算法

上一节说过，deterministic approximations是用简单的分布

来近似后验分布，在EP算法中，我们假设q服从指数族分布这一简单的形式。我们通过KL散度来度量q分布和目标分布p之间的距离。

当q是指数族分布的时候，q可以被表示为(参见PRML2.4节)，这里η是q分布的参数(如果是高斯的话就是均值和方差)。

把q的这个形式代入KL散度。因为p是固定的，而我们要优化q，所以只保留与q有关的项，其他都放到常数项里，从而有

对上式关于η求导，得到

又有（参见PRML2.4节）

可以得到

上式是同一个东西关于不同分布的期望，因此我们只要匹配这两个分布的充分统计量，就可以做到让上式成立，例如，若q是高斯分布，只要让q和p的均值和方差匹配就行了。这通常叫做moment matching，关于moment matching的理论证明我具体也不太明白，后面再看一些材料后再补上说明。这里记住就行。

后面我们用θ来表示模型的参数和潜变量，用D来表示已经观测到的数据。

在很多概率图模型中，潜变量的真实后验分布可以写成多个因⼦乘积的形式

我们除了假设q是指数族分布形式，还假设用来近似后验分布的这个q也能写成多个因⼦的乘积

直接优化下式不可行，因为散度左边那项是真实的后验分布，形式复杂。

所以我们选择让q的每个因⼦

分别近似p中相应的因⼦

来整体近似q和p。

那么如何让q的每个因⼦分别近似p中相应的因⼦呢？在优化

的时候，我们⽤剩下的q因⼦(10.205式中的

)

乘以真实后验分布中的对应项

来替代真实后验分布

最低0.47元/天解锁文章

weixin_39895862

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
指数分布的期望和方差_期望传播算法EP详细介绍(expectation propagation)以及算法举例...

一、前言在机器学习问题中，从观测变量推测潜变量或者说计算潜变量的后验分布是非常重要的一类问题，关于什么是潜变量，可以参考我之前一篇文章的第二节。很多时候，因为潜变量z的维度很高，在z为离散时导致分母里这个求和很难算，又或者是在连续时因为分母积分符号里的表达式很复杂，导致这个积分没有解析解。从而导致后验分布很难得到，这个时候我们就要采取近似的办法来算后验(近似推理approximate inf...
复制链接

扫一扫