EM算法及其推导

最新推荐文章于 2023-08-12 10:25:34 发布

Doooer

最新推荐文章于 2023-08-12 10:25:34 发布

阅读量661

点赞数 1

分类专栏：机器学习算法总结文章标签：算法

本文链接：https://blog.csdn.net/YQMind/article/details/78836953

版权

机器学习算法总结专栏收录该内容

39 篇文章 1 订阅

订阅专栏

定义：
EM算法是含有隐变量的概率模型参数的极大似然估计法或极大后验概率估计法。下面仅讨论极大似然估计。

特点：
EM算法与初值的选择有关，选择不同的初值可能得到不同的结果。

本章，我们用 $Y$ 表示观测数据， $Z$ 表示隐数据， $(Y, Z)$ 一起称为完全数据， $Y$ 则称为不完全数据。

EM算法的目标：
$\hat{\theta} =\mathop{\arg\max}_{\theta} logP(Y|\theta)$ ，通过迭代法求解，每次迭代包括E步和M步。

EM算法：
输入：观测变量数据 $Y$ , 隐变量数据 $Z$ , 联合分布 $P(Y,Z|\theta)$ , 条件分布 $P(Z|Y,\theta)$
输出： $\theta$

初始化 $\theta^{(0)}$ (注意：EM算法与初值的选择有关，选择不同的初值可能得到不同的参数估计值)
E步： $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i + 1$ 次迭代的E步，计算
$Q(\theta,\theta{(i)} )= E_Z[logP(Y,Z|\theta)|Y,\theta^{(i)}] =\sum_ZlogP(Y,Z|\theta)P(Z|Y,\theta^{(i)})$
M步： $\theta ^{(i+1)}=\mathop{\arg\max}_{\theta} Q(\theta,\theta^{(i)})$
重复2和3步，直至收敛

$Q(\theta,\theta{(i)} )$ 是 $Q$ 函数,它是EM算法的核心，其定义是：完全数据的对数似然函数 $logP(Y,Z|\theta)$ 关于在给定观测数据 $Y$ 和当前参数 $\theta^{(i)}$ 下对隐数据 $Z$ 的条件概率分布 $P(Z|Y,\theta^{(i)})$ 的期望称为 $Q$ 函数。

有的地方写的步骤是这样的：
在这里插入图片描述
本质是一样的。

关于EM算法的几点说明：

EM算法对初值是敏感的，不同的初始值可能使得最后的参数估计值不同
停止迭代的条件是： $\theta^{(i+1)} - \theta^{(i)} |< \xi_1$ 或者 $Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)})| <\xi_2$
每次迭代使 $logP(Y|\theta)$ 增大或者达到局部极值

从前面知道，我们的目标是极大化对数似然函数 $\mathop{\arg\max}_{\theta} logP(Y|\theta)$ ，因为隐变量的存在，我们无法直接求其进行求解。采用的EM算法也仅仅是近似实现对观测数据的极大似然估计。

如何一步一步从目标推出EM算法：
目标：极大化 $L(\theta) = logP(Y|\theta) =log(\sum_Z P(Y,Z|\theta)) = log(\sum_ZP(Z|\theta)P(Y|Z,\theta))$
上式的困难是：1.有隐变量 2.包含和的对数

EM算法是通过迭代逐步近似极大化 $L(\theta)$ 。
预备：Jensen不等式
对于凸函数： $E (f (x)) > = f (E (x))$
我们期望新的估计值能使对数似然函数增加，即
$L(\theta)>L(\theta^{(i)})$
这里写图片描述

在这里插入图片描述
$B(\theta,\theta^{(i)})$ 是 $L(\theta)$ 的下界，并且 $L(\theta^{(i)}) = B(\theta^{(i)},\theta^{(i)})$
任何可以使 $B(\theta,\theta^{(i)})$ 增大的 $\theta$ ，也可以使 $L(\theta)$ 增大。为了使 $L(\theta)$ 尽可能大的增长，我们选择 $\theta^{(i+1)}$ 使得 $B(\theta,\theta^{(i)})$ 达到极大， $\theta^{(i+1)}=\mathop{\arg\max}_{\theta}B(\theta,\theta^{(i)})$ 。

省去对 $\theta$ 极大化而言是常数的项：
$\theta^{(i+1)} = \mathop{\arg\max}_{\theta}\sum_ZlogP(Y,Z|\theta)P(Z|Y,\theta^{(i)})=\mathop{\arg\max}_{\theta}Q(\theta,\theta^{(i)})$

EM算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。
这里写图片描述

EM算法的收敛性
在这里插入图片描述
EM算法不能保证收敛到全局的极大点，因此它是局部最优的算法。

[1] 李航《统计学习方法》
[2] https://www.cnblogs.com/pinard/p/6912636.html
[3] https://www.cnblogs.com/txg198955/p/4097543.html

Doooer

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM算法及其推导

参考：李航《统计学习方法》在初识EM算法里，我们对什么是EM算法有了一个大体的认识，这一章，我们需要对EM算法进一步的学习，涉及一些数学公式，不要害怕，没有那么恐怖~ 本章，我们用YY表示观测数据，ZZ表示隐数据，(Y,Z)(Y , Z)一起称为完全数据，YY则称为不完全数据。 EM算法的目标是： θ^=argmaxθlogP(Y|θ)\hat{\theta} =\mathop{\arg\ma
复制链接

扫一扫