EM算法介绍及总结

最新推荐文章于 2024-08-14 00:10:28 发布

changsoon

最新推荐文章于 2024-08-14 00:10:28 发布

阅读量7k

点赞数 3

分类专栏：机器学习 EM算法

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

EM算法

3 篇文章 0 订阅

订阅专栏

本文摘自统计学习方法李航著清华大学出版社

EM算法介绍及总结

EM算法是一种迭代的算法，1977年由Dempster等人提出，用于含有隐变量（Hidden Variable）的概率模型参数的极大似然估计（不了解的可以参考我的另一篇博客，极大似然估计），或极大后验概率估计。EM算法的每次迭代由两步组成：E步，求期望（expectation）；M步，求极大（maximum）。所以这一算法称为期望极大算法（expectation maximum algorithm），简称EM算法。本文介绍EM算法，在下一篇博客中会介绍EM算法在高斯混合模型学习中的应用。

EM算法的引入

概率模型又是即含有观测变量（observe variable），又含有隐变量或潜在变量（latent variable）。如果概率模型的变量都是观测变量，那么给定的数据，可以直接用极大似然估计法，或贝叶斯估计法估计模型参数。但是，当模型含有隐变量时，就不能简单地使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验估计法。我们仅讨论极大似然估计，极大后验概率与其相似。

EM算法

例子：三硬币模型

假设有3枚硬币，分别记做A，B，C。这些硬币正面出现的概率分别是 $\pi, p,$ 和 $q$ 。进行如下掷硬币试验：先掷硬币A，根据其结果选出硬币B或硬币C，正面选硬币B，反面选硬币C；然后掷选出的硬币，掷硬币的结果，出现正面记做1，出现反面记做0；独立地重复n次试验（这里， n=10），观测结果如下：

1, 1, 0, 1, 0, 0, 1, 0, 1, 1

假设只能观测到掷硬币的结果，不能观察到掷硬币的过程，问如何估计三枚硬币正面出现的概率，即三硬币模型的参数（ $\pi, p, q$ ）。

解答

三枚硬币的模型可以写作：

P(y|Θ)=∑zP(y,z|Θ)=∑zP(z|Θ)P(y|z,Θ) $P(y|\varTheta) = \sum_{z}{P(y,z|\varTheta)} = \sum_{z}{P(z|\varTheta)P(y|z, \varTheta)}$ （贝叶斯公式，不懂的可以翻一番概率论）

P(y|Θ)=πpy(1−p)1−y+(1−π)qy(1−q)1−y $P(y|\varTheta) = \pi p^y(1-p)^{1-y}+(1-\pi)q^y(1-q)^{1-y}$

这里，随机变量y是观测变量（可以从题目中获得的数据），表示一次试验观测的结果是1或0；随机变量z是隐变量，表示未观测到的掷硬币A的结果； $\varTheta=(\pi, p, q)$ 是模型参数。这一模型是以上数据的生成模型。注意随机变量y的数据可以观测，随机变量z的数据不可观测（无法从题目中获得）。
将观测数据表示为 $Y=(Y_1, Y_2, ..., Y_n)^T$ ，未观测的数据表示为 $Z=(Z_1 , Z_2 ,...,Z_n)^T$ ，则观测的数据的似然函数为

P(Y|Θ)=∑zP(Z|Θ)P(Y|Z,Θ) $P(Y|\varTheta) = \sum_{z}{P(Z|\varTheta)P(Y|Z, \varTheta)}$

即

P(Y|Θ)=∏[πpyj(1−p)1−yj+(1−π)qyj(1−q)1−yj] $P(Y|\varTheta) = \prod{[\pi p^{y_j}(1-p)^{1-y_j} + (1-\pi)q^{y_j}(1-q)^{1-y_j}]}$

考虑求模型参数 $\varTheta = (\pi, p, q)$ 的极大似然估计，即

Θ=argmaxΘlogP(Y|Θ) $\varTheta = argmax_\varTheta\log{P(Y|\varTheta)}$

这个问题没有解析解，只有通过迭代的方法求解。EM算法就是可以用于求解这个问题的一种迭代方法。下面给出针对以上问题的EM算法，其推到过程省略。
EM算法首先选取参数的初值，记做 $\varTheta^{(0)} = (\pi^{0}, p^{0}, q^{0})$ ，然后通过下面的步骤迭代计算参数的估计值，直到收敛为止。第 $i$ 次迭代参数的估计值为 $\varTheta^{(i)} = (\pi^{i}, p^{i}, q^{i})$ 。EM算法的第 $i+1$ 次迭代如下。

E步：计算在模型参数 $\pi^{i}, p^{i}, q^{i}$ 下观测数据 $y_j$ 来自掷硬币B的概率

$\mu_{j}{(i+1)} = \frac{\pi^{(i)}(p^{(i)})^{y_i}(1-p^{(i)})^{1-y_i}}{\pi^{(i)}(p^{(i)})^{y_i}(1-p^{(i)})^{1-y_i} + (1-\pi^{(i)})(q^{(i)})^{y_i}(1-q^{(i)})^{1-y_i}}$ （1）
M步：计算模型参数的新估计值：

π(i+1)=1n∑nj=1μ(i+1)j $\pi^{(i+1)} = \frac{1}{n}\sum_{j=1}^{n}\mu_j^{(i+1)}$ （2）

p(i+1)=∑nj=1μ(i+1)jyj∑nj=1μi+1j $p^{(i+1)} = \frac{\sum_{j=1}^{n}\mu_j^{(i+1)}y_j}{\sum_{j=1}^{n}\mu_j^{i+1}}$ （3） （条件概率，在抽到硬币B的条件下翻到正面的概率）

q(i+1)=∑nj=1(1−μ(i+1)j)yj∑nj=1(1−μi+1j) $q^{(i+1)} = \frac{\sum_{j=1}^{n}(1-\mu_j^{(i+1)})y_j}{\sum_{j=1}^{n}(1-\mu_j^{i+1})}$ （4）（条件概率，在抽到硬币C的条件下翻到正面的概率）

现在，如果你嫌公式太抽象，咋们来点数字计算
假设模型参数的初值取为

π(0)=0.5,p(0)=0.5,q(0)=0.5 $\pi^{(0)} = 0.5, p^{(0)} = 0.5, q^{(0)} = 0.5$ （这样的取法比较实际，一枚硬币正面反面的概率大致相等）

由公式（1）可得，无论 $y_j=1$ 或者 $y_j=0$ ，都可以算得 $\mu_j^{(1)} = 0.5$ 。当 $y_j=1$ 时，计算过程如下图，同理可计算 $y_j=0$ 。

利用迭代公式（2~4），得到

π(1)=0.5,p(1)=0.6,q(1)=0.6 $\pi^{(1)} = 0.5, p^{(1)} = 0.6, q^{(1)} = 0.6$

再根据公式（1）计算 $\mu_{j}^{(2)} = 0.5, j = 1, 2, 3,...,10$
继续迭代，得：

π(2)=0.5,p(2)=0.6,q(2)=0.6 $\pi^{(2)} = 0.5, p^{(2)} = 0.6, q^{(2)} = 0.6$

于是得到模型参数 $\varTheta$ 的极大似然估计：

π=0.5,p=0.6,q=0.6 $\pi=0.5, p=0.6, q=0.6$

$\pi=0.5$ 表示硬币A是均匀的，这一结果容易理解。

计算的结果依赖于初值，如果取初值 $\pi^{(0)} = 0.4, p^{(0)} = 0.6, q^{(0)} = 0.7$ ，那么得到的模型参数的极大似然估计是 $\pi=0.4064, p=0.5368, q=0.6432$ 。计算出来的结果非常接近于实际值，误差仅为1.6%。这说明，EM算法与初始值的选择有关，选择不同的初值可能得到不同的参数估计。所以初值选择一定要符合实际情况，这样计算出来的结果才会接近于现实。
一般的，用Y表示观测随机变量的数据，Z表示隐随机变量的数据。Y和Z连在一起成为完全数据（complete-data），观测数据Y又称为不完全数据（incomplete-data）。假设给定观测数据Y，其概率分布是 $P(Y|\varTheta)$ ，其中 $\varTheta$ 是需要估计的模型参数，那么不完全数据Y的似然函数是 $L(\varTheta) = \log{P(Y|\varTheta)}$ ；假设Y和Z的联合概率分布是 $P(Y, Z|\varTheta)$ ，那么完全数据的对数似然函数是 $\log{P(Y, Z|\varTheta)}$ 。
EM算法通过迭代求 $L(\varTheta) = \log{P(Y|\varTheta)}$ 的极大似然估计。每次迭代包含两步：E步，求期望；M步，求极大化。下面来介绍EM算法。

EM算法

输入： 观测变量数据Y，隐变量数据Z，联合分布 $P(Y, Z|\varTheta)$ ，条件分布 $P(Z|Y, \varTheta)$ ；
输出： 模型参数 $\varTheta$ 。

（1）选择参数的初始值 $\varTheta^{(0)}$ ，开始迭代。
（2） E步：记 $\varTheta{(i)}$ 为第i次迭代参数 $\varTheta$ 的估计值，在第i+1次迭代的E步，计算

Q(Θ,Θ(i))=Ez[logP(Y,Z|Θ)|Y,Θ(i)]=∑zlogP(Y,Z|Θ)P(Z|Y,Θ(i)) $Q(\varTheta, \varTheta^{(i)}) = E_z{[\log{P(Y, Z|\varTheta) | Y, \varTheta^{(i)}}]} = \sum_{z}{\log{P(Y, Z|\varTheta)P(Z|Y, \varTheta^{(i)})}}$ 公式（5）

注解：其中， $\varTheta^{(i)}$ 代表使用其数据用来迭代下一次计算，在观测模型Y的条件下计算期望，在选定的模型参数和本次观测数据 $y^{(i+1)}$ 条件下，隐变量Z发生的概率，再乘以对应的概率，即得到期望，对应公式（1）。 $P(Z|Y, \varTheta^{(i)})$ 是在给定观测数据Y和当前的参数估计 $\varTheta^{(i)}$ 下的隐变量数据Z的条件概率分布；

（3）M步：求使 $Q(\varTheta, \varTheta^{(i)})$ 极大化的 $\varTheta$ ，确定第i+1次迭代的参数估计 $\varTheta^{(i+1)}$

Θ(i+1)=argmaxΘQ(Θ,Θ(i)) $\varTheta^{(i+1)} = arg max_{\varTheta}{Q(\varTheta, \varTheta{(i)})}$ 公式（6）

（4）重复第（2）步和第（3）步，直到收敛。
其中，公式（5）是EM算法的核心，称为Q函数（Q function）。

Q函数

完全数据的对数似然函数 $\log{P(Y, Z|\varTheta)}$ 关于在给定的观测数据Y和当前参数 $\varTheta^{(i)}$ 下对未观测数据Z的条件概率分布 $P(Z|Y, \varTheta^{(i)})$ 的期望称为Q函数，即

Q(Θ,Θ(i))=Ez[logP(Y,Z|Θ)|Y,Θ(i)] $Q(\varTheta, \varTheta^{(i)}) = E_z{[\log{P(Y, Z|\varTheta) | Y, \varTheta^{(i)}}]}$ 公式（7）

关于EM算法的几点说明：

步骤（1）参数的初值可以任意选择，但需要注意EM算法对初值是敏感的。
步骤（2）E步求 $Q(\varTheta, \varTheta^{(i)})$ 。Q函数式中Z是未观测数据，Y是观测数据。注意， $Q(\varTheta, \varTheta^{(i)})$ 的第一个变元表示要极大化的参数，第二个变元表示参数的当前估计值。每次迭代实际在求Q函数及其极大。
步骤（3）M步求 $Q(\varTheta, \varTheta^{(i)})$ 的极大化，得到 $\varTheta^{(i+1)}$ ，完成一次迭代 $\varTheta^{(i)} \Rightarrow \varTheta^{(i+1)}$ 。后面证明每次迭代是似然函数增大达到局部极值。
步骤（4）给出停止迭代条件，一般是对较小的正数 $\varSigma_1, \varSigma_2$ ，若满足

$\left\| \varTheta^{(i+1)}-\varTheta^{(i)} \right\| < \varSigma_1$ 或者 $\left\| Q(\varTheta^{(i+1)}, \varTheta^{(i)}) - Q(\varTheta^{(i)}, \varTheta^{(i-1)}) \right\|$