EM算法为什么能work

最新推荐文章于 2024-06-01 00:12:28 发布

luixiao1220

最新推荐文章于 2024-06-01 00:12:28 发布

阅读量195

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/luixiao1220/article/details/107383060

版权

算法专栏收录该内容

33 篇文章 2 订阅

订阅专栏

UTF8gbsn

EM算法的由来, 上一篇文章介绍了EM算法的具体步骤,
且给出了一个EM算法例子的详细推导. 但是没有给出EM算法为什么有效的证明.
这里我们来证明并推导一下EM算法的推导.首先如果我们有观察值 $X$ ,
我们需要估计参数 $\theta$ . 使用MLE(极大似然估计)

$\arg\max_{\theta}L(\theta;X)$

如果有隐变量 $Z$ , 并且知道隐变量 $Z$ 的估计模型我们可以改写最大似然估计为
$\left. \begin{aligned} \arg\max_{\theta}L(\theta;X)&=\arg\max_{\theta}L(\theta;X,Z)\\ &=\arg\max_{\theta}\sum_{Z}lnP(X|Z_i,\theta) P(Z_i|\theta) \end{aligned} \right.$

那么, 这个公式实际上不好计算,
因为穷举 $P(Z|\theta), P(X|Z,\theta)$ 是不容易的.
所以我们想到使用近似来做. 假设我们 $\theta^t$ 参数来近似. 我们先来计算误差
$\left. \begin{aligned} L(\theta)-L(\theta^t)&=ln[\sum_{Z}P(X|Z_i,\theta) P(Z_i|\theta)]-lnP(X|\theta^t)\\ &=ln[\sum_{Z}P(Z_i|X,\theta^t)\frac{P(X|Z_i,\theta) P(Z_i|\theta)}{P(Z_i|X,\theta^t)}]-lnP(X|\theta^t)\\ &\geqslant \sum_{Z}P(Z_i|X,\theta^t)ln[\frac{P(X|Z_i,\theta) P(Z_i|\theta)}{P(Z_i|X,\theta^t)}]-lnP(X|\theta^t),(Jensen\quad inequality)\\ &=\sum_{Z}P(Z_i|X,\theta^t) ln[\frac{P(X|Z_i,\theta) P(Z_i|\theta)}{P(Z_i|X,\theta^t)P(X|\theta^t)}] \end{aligned} \right.$

令 $B_{\theta,\theta^t}$ 为
$B_{\theta,\theta^t}=\sum_{Z}P(Z_i|X,\theta^t) ln[\frac{P(X|Z_i,\theta) P(Z_i|\theta)}{P(Z_i|X,\theta^t)P(X|\theta^t)}]+L(\theta^t)$

由此可见 $L(\theta)>B_{\theta,\theta^t}$ . 也就是说,
$B_{\theta,\theta^t}$ 是 $L(\theta)$ 的下界,如果我们能够优化 $\arg\max_{\theta}B(\theta,\theta^t)$ .
我们就可以逼近 $L(\theta)$ .

$\left. \begin{aligned} \arg\max_{\theta}B(\theta,\theta^t)&=\arg\max_{\theta}\sum_{Z}P(Z_i|X,\theta^t) ln[\frac{P(X|Z_i,\theta) P(Z_i|\theta)}{P(Z_i|X,\theta^t)P(X|\theta^t)}]+L(\theta^t)\\ &=\arg\max_{\theta}\sum_{Z}P(Z_i|X,\theta^t) ln[P(X|Z_i,\theta)P(Z_i|\theta)]\\ &=\arg\max_{\theta}\sum_{Z}P(Z_i|X,\theta^t) ln[P(X,Z_i|\theta)]\\ \end{aligned} \right.$

其中可见, $Q(\theta,\theta^t)$ , 为

$Q(\theta,\theta^t)=\sum_{Z}P(Z_i|X,\theta^t)ln(P(X,Z_i|\theta))$

于是,这正式我们的E步, 最终我们可以求得 $\theta$

luixiao1220

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM算法为什么能work

UTF8gbsnEM算法的由来, 上一篇文章介绍了EM算法的具体步骤,且给出了一个EM算法例子的详细推导. 但是没有给出EM算法为什么有效的证明.这里我们来证明并推导一下EM算法的推导.首先如果我们有观察值XXX,我们需要估计参数θ\thetaθ. 使用MLE(极大似然估计)arg⁡max⁡θL(θ;X)\arg\max_{\theta}L(\theta;X)argθmaxL(θ;X)如果有隐变量ZZZ, 并且知道隐变量ZZZ的估计模型我们可以改写最大似然估计为arg⁡max⁡θL(θ;X)
复制链接

扫一扫