指数分布的期望和方差_期望传播算法EP详细介绍(expectation propagation)以及算法举例...

一、前言

在机器学习问题中,从观测变量推测潜变量或者说计算潜变量的后验分布

是非常重要的一类问题,关于什么是潜变量,可以参考我之前一篇文章的第二节。

很多时候,因为潜变量z的维度很高,在z为离散时导致分母里这个求和很难算,又或者是在连续时因为分母积分符号里的表达式很复杂,导致这个积分没有解析解。从而导致后验分布很难得到,这个时候我们就要采取近似的办法来算后验(近似推理approximate inference)。

approximate inference常用的思路有两种,一种叫做stochastic approximate,就是通过蒙特卡洛采样的方法来做,另一种叫deterministic approximations,思想是用简单的分布

来近似后验。stochastic approximate通过采样的方法优点是只要采样数够多,精度就高,缺点是计算量大;deterministic approximations的优点是计算简单,缺点是不够精确。这里我们重点介绍deterministic approximations的两种算法。

期望传播算法是deterministic approximations方法的一种,常见的deterministic approximations方法还有变分推理(variational inference)。

二、expectation propagation(EP)算法

上一节说过,deterministic approximations是用简单的分布

来近似后验分布,在EP算法中,我们假设q服从指数族分布这一简单的形式。我们通过KL散度来度量q分布和目标分布p之间的距离。

当q是指数族分布的时候,q可以被表示为(参见PRML2.4节),这里η是q分布的参数(如果是高斯的话就是均值和方差)。

a8ca05fa5a33c53ab528de66d96358d4.png

把q的这个形式代入KL散度。因为p是固定的,而我们要优化q,所以只保留与q有关的项,其他都放到常数项里,从而有

3005d941fad1860a04ceb5e4bb78517e.png

对上式关于η求导,得到

f5a2219d9aed997c44ce15f211d3043e.png

又有(参见PRML2.4节)

19c2162941947eef904cf501a30ef4f0.png

可以得到

56d228024a896c164b7856bee1faf02c.png

上式是同一个东西关于不同分布的期望,因此我们只要匹配这两个分布的充分统计量,就可以做到让上式成立,例如,若q是高斯分布,只要让q和p的均值和方差匹配就行了。这通常叫做moment matching,关于moment matching的理论证明我具体也不太明白,后面再看一些材料后再补上说明。这里记住就行。

后面我们用θ来表示模型的参数和潜变量,用D来表示已经观测到的数据。

在很多概率图模型中,潜变量的真实后验分布可以写成多个因⼦乘积的形式

7c06b31ca244f282ab1ffe05b3f43dee.png

我们除了假设q是指数族分布形式,还假设用来近似后验分布的这个q也能写成多个因⼦的乘积

e82f54a9056fce522082dc7320402534.png

直接优化下式不可行,因为散度左边那项是真实的后验分布,形式复杂。

80dc406f4d13a17a803ded2137212d08.png

所以我们选择让q的每个因⼦

分别近似p中相应的因⼦
来整体近似q和p。

那么如何让q的每个因⼦分别近似p中相应的因⼦呢?在优化

的时候, 我们⽤剩下的q因⼦(10.205式中的
)

a262ac2a6e7c9e5320a012c47b776674.png

乘以真实后验分布中的对应项

来替代真实后验分布

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是常见的分布列和对应的方差/标准差/期望算法和公式: 1. 二项分布: - 分布列:$P(X=k) = \binom{n}{k}p^{k}(1-p)^{n-k}$ - 期望:$E(X) = np$ - 方差:$Var(X) = np(1-p)$ - 标准差:$\sigma(X) = \sqrt{np(1-p)}$ 2. 泊松分布: - 分布列:$P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}$ - 期望:$E(X) = \lambda$ - 方差:$Var(X) = \lambda$ - 标准差:$\sigma(X) = \sqrt{\lambda}$ 3. 正态分布: - 分布函数:$f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ - 期望:$E(X) = \mu$ - 方差:$Var(X) = \sigma^2$ - 标准差:$\sigma(X) = \sigma$ 4. t分布: - 分布函数:$f(x) = \frac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\pi \nu} \Gamma(\frac{\nu}{2})} (1+\frac{x^2}{\nu})^{-\frac{\nu+1}{2}}$ - 期望:$E(X) = 0$ - 方差:$Var(X) = \frac{\nu}{\nu-2}$,其中$\nu$是自由度 - 标准差:$\sigma(X) = \sqrt{\frac{\nu}{\nu-2}}$,其中$\nu$是自由度 5. 卡方分布: - 分布函数:$f(x) = \frac{1}{2^{\frac{\nu}{2}}\Gamma(\frac{\nu}{2})} x^{\frac{\nu}{2}-1} e^{-\frac{x}{2}}$ - 期望:$E(X) = \nu$ - 方差:$Var(X) = 2\nu$ - 标准差:$\sigma(X) = \sqrt{2\nu}$,其中$\nu$是自由度 6. F分布: - 分布函数:$f(x) = \frac{\Gamma(\frac{\nu_1+\nu_2}{2})}{\Gamma(\frac{\nu_1}{2})\Gamma(\frac{\nu_2}{2})} (\frac{\nu_1}{\nu_2})^{\frac{\nu_1}{2}} x^{\frac{\nu_1}{2}-1} (1+\frac{\nu_1}{\nu_2}x)^{-\frac{\nu_1+\nu_2}{2}}$ - 期望:$E(X) = \frac{\nu_2}{\nu_2-2}$,其中$\nu_2>2$ - 方差:$Var(X) = \frac{2\nu_2^2(\nu_1+\nu_2-2)}{\nu_1(\nu_2-2)^2(\nu_2-4)}$,其中$\nu_2>4$ - 标准差:$\sigma(X) = \sqrt{\frac{2\nu_2^2(\nu_1+\nu_2-2)}{\nu_1(\nu_2-2)^2(\nu_2-4)}}$,其中$\nu_2>4$
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值