EM算法及其推广

最新推荐文章于 2022-10-09 16:50:23 发布

Echo00x0

最新推荐文章于 2022-10-09 16:50:23 发布

阅读量4.3k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_20602929/article/details/51424292

版权

EM算法是一种迭代算法，1977年由Dempster等人总给提出，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率，E，求期望；M，求极大似然估计，简称EM算法

Dempster：

EM算法的引入
EM算法的收敛性
EM算法的收敛性
- 高斯混合模型
- 高斯混合模型参数估计的EM算法
EM算法的推广
- F函数的极大-极大算法
- GEM算法

EM算法的引入

EM算法

例子：
（三硬币模型），假设有3枚硬币，分别记作A,B,C。这些硬币正面出现的概率为 $\pi,p和q$ 。
先掷硬币A，根据其结果选出硬币B或C，正面选硬币B，反面选硬币C；然后掷选出的硬币，正面记作1，反面记作0；独立重复n次试验，结果：
1，1，0，1，0，0，1，0，1，1

假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率，即三硬币模型的参数

三硬币模型可以写作
$P(y|\theta)=\sum_zP(y,z|\theta)=\sum_{z}P(z|\theta)P(y|z,\theta)=\pi p^y(1-p)^{1-y}+(1-\pi)q^y(1-q)^{1-y}$
则，
$P(Y|\theta)=\prod_{j=1}^n[\pi p^y_j(1-p)^{1-y_j}+(1-\pi)q^{y_j}(1-q)^{1-y_j}]$
考虑求模型参数 $\theta =(\pi,p,q)$ 的极大似然估计，即
$\hat{\theta}=\arg \max_{\theta} \log P(Y|\theta)$

这个问题没有解析解，只有通过迭代方法求解。
EM算法首先选取参数的初值，记作 $\theta^{(0)}=(\pi^{(0)},p ^{(0)},q^{(0)})$ ,然后通过下式迭代计算参数的初值，直至收敛为止，第i次迭代参数的估计值为 $\theta^{(i)}=(\pi^{(i)},p^{(i)},q^{(i)})$ .EM算法的第i+1次迭代如下

E步：计算在模型参数 $\pi^{(i)},p^{(i)},q^{(i)}下观测数据y_j来自掷硬币B的概率$
$\mu^{(i+1)}=\dfrac{\pi^{(i)} (p^{(i)})^{y_j}(1-p^{(i)})^{1-y_j}}{\pi^{(i)} (p^{(i)})^{y_j}(1-p^{(i)})^{1-y_j}+(1-\pi^{(i)})(q^{(i)})^{y_j}(1-q^{(i)}36)^{1-y_j}}$

M步：计算模型参数的新估计值
$\pi^{(i+1)}=\frac1n\sum_{j=1}^n\mu_j^{(i+1)}$

$p^{(i+1)}=\dfrac{\sum_{j=1}^n\mu_j^{(i+1)}y_j}{\sum_{j=1}^n\mu_j^{(i+1)}}$

$q^{(i+1)}=\dfrac{\sum_{j=1}^n(1-\mu_j^{(i+1)})y_j}{\sum_{j=1}^n(1-\mu_j^{(i+1)})}$

EM算法与初值的选择有关，选择不同的初值可能得到不同的参数估计值
一般地，用Y表示观测随机变量的数据，Z表示隐随机变量的数据。Y和Z连在一起成为完全数据。EM算法通过迭代求 $L(\theta)=\log P(Y|\theta)$ 的极大似然估计

算法：
输入：观测变量数据Y，隐变量数据Z，联合分布 $P(Y|\theta)$ ,条件分布 $P(Z|Y,\theta)$
输出：模型参数 $\theta$

1)选择参数的初值 $\theta^{(0)}$ ,开始迭代；

2)E步：记 $\theta^{(i)}$ 为第i次迭代参数 $\theta$ 的估计值，在第i+1次迭代的E步，计算

$Q(\theta,\theta^{(i)})=E_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]=\sum_Z \log P(Y,Z|\theta)P(Z|Y,\theta{(i)})$

3)M步：求使 $Q(\theta,\theta^{(i)})$ 极大化的\theta ,确定第i+1次迭代的参数估计值 $\theta^{(i+1)}$

$\theta^{(i+1)}=\arg \max_{\theta} Q(\theta,\theta^{(i)})$

4)重复第2和第3步，直至收敛

定义：
（Q函数）完全数据的对数似然函数关于在给定观测数据和当前参数对未观测数据的条件概率分布的期望称为Q函数，即：
$Q(\theta,\theta^{(i)})=E_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]$

关于EM算法的几点说明：

1）参数的初值可以任意选择，但需注意EM算法对初值是敏感的

2）E步求Q函数.Q函数式中Z是未观测，Y是观测。注意， $Q(\theta,\theta^{(i)})$ 的第一个变元便是要极大化的参数，第二个便是参数的当前估计值。每次迭代实际在求Q函数及其极大

3）M步求Q函数极大，得到 $\theta{(i+1)}$ ，完成一次迭代（i到i+1），后面将证明每次迭代使似然函数增大或达到局部极值

4）给出停止迭代的条件，一般是对较小的正数 $\varepsilon_1,\varepsilon_2,若满足$
||θ(i+1)−θ(i)||<ε1或||Q(θ(i+1),θ(i))−Q(

最低0.47元/天解锁文章

Echo00x0

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
EM算法及其推广

EM算法是一种迭代算法，1977年由Dempster等人总给提出，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率，E，求期望；M，求极大似然估计，简称EM算法Dempster：EM算法的引入EM算法EM算法的导出EM算法在非监督学习中的应用EM算法的收敛性EM算法的收敛性高斯混合模型高斯混合模型参数估计的EM算法EM算法的推广F函数的极大-极大算法GEM算法EM算法的
复制链接

扫一扫