EM算法

最新推荐文章于 2022-10-25 21:21:43 发布

walkeao

最新推荐文章于 2022-10-25 21:21:43 发布

阅读量534

点赞数 1

分类专栏：机器学习算法-模型小组块文章标签： EM算法机器学习隐变量迭代算法

本文链接：https://blog.csdn.net/Walker_Hao/article/details/78816094

版权

小组块同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

机器学习算法-模型

5 篇文章 0 订阅

订阅专栏

EM算法

EM算法
EM算法
为什么使用EM
两个事实
EM算法过程
三个问题

EM算法的导出
EM算法收敛性证明
参考

本文中，若无特殊说明，使用 $Y,y$ 表示观测变量，使用 $Z,z$ 表示隐藏变量， $\theta$ 表示模型参数。

EM算法

为什么使用EM?

概率模型有时既包含观测变量，也包含隐变量(或潜在变量)。
如果模型只包含观测变量，则我们可以通过最大化对数似然 $l(\theta)$ 来得到 $\theta$ ：

l (θ) = l o g P (Y | θ) (1)

$l(\theta)=log\ P(Y|\theta)\qquad(1)$

如果模型包含隐变量，则(1)式变化为：

l (θ) = l o g P (Y | θ) = l o g [\sum Z P (Y, Z | θ)] (2)

$l(\theta)=log\ P(Y|\theta)=log\ [\sum_{Z}P(Y,Z|\theta)]\qquad(2)$

这里，因为极大似然概率是隐变量和观测变量联合概率求和的对数，很难求解，那怎么办？
下面就是EM的解决方案，EM不是直接求解，而是使用一个迭代过程来不断的逼近 $l(\theta)$ 的局部最大值(EM算法的解和初值选择是有关系的)，从而得到 $\theta$ 的近似解。

两个事实

在说EM算法之前，我们需要知道以下两个事实：

对于 $P(Y,Z|\theta)$ ，如果观测变量 $Y$ 和隐变量 $Z$ 已知，即只有一个未知变量 $\theta$ ，那么我们可以通过极大似然概率的最大化来得到 $\theta$ 的解。
对于 $P(Z|Y,\theta)$ ，如果观测变量 $Y$ 和模型参数 $\theta$ 已知，那么这个概率值也是可以计算出来的，即我们会得到 $p(z_1),p(z_2),...,p(z_n), (z_i \in Z)$ 。

EM算法过程

下面是EM算法迭代求解 $\theta$ 的过程：

选择模型参数的初值 $\theta^{(0)}$ ，开始迭代。
E步：记 $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，则第 $i+1$ 次迭代的E步(求解期望值)，计算： $Q (θ, θ (i)) = E Z [l o g P (Y, Z | θ) | Y, θ (i)] (3)$ $Q(\theta,\theta^{(i)})=E_Z[log\ P(Y,Z|\theta)|Y,\theta^{(i)}]\qquad(3)$ 上式是在已知观测变量 $Y$ 和模型的估计参数 $\theta^{(i)}$ 条件下求解 $log\ P(Y,Z|\theta)$ 的期望，我们根据事实2可以得到隐变量 $Z$ 的概率分布，所以(3)式可以进一步转化为： $Q (θ, θ (i)) = E Z [l o g P (Y, Z | θ) P (Z | Y, θ (i))] (4)$ $Q(\theta,\theta^{(i)})=E_Z[log\ P(Y,Z|\theta)P(Z|Y,\theta^{(i)})]\qquad(4)$ 细心的读者发现了，这个式子不就是一个加权平均吗？我们再将(4)式的含义屡一下：首先在第 $i$ 次求得观测变量 $Y$ 和模型参数 $\theta^{(i)}$ 的条件下，我们得到了隐变量 $Z$ 的概率分布，现在我们可以当做 $Z$ 是已知的了，这个表达式现在只有一个未知变量 $\theta$ ，然后我们是不是可以根据事实1来得到 $\theta$ 的解？
M步：在算法第2步中，我们可以使用事实1来得到 $\theta$ 的解，这个解就是第 $i+1$ 次的模型参数 $\theta^{(i+1)}$ 的估计值： $θ (i + 1) = a r g max θ Q (θ, θ (i)) (5)$ $\theta^{(i+1)}=arg\max_{\theta}Q(\theta,\theta^{(i)})\qquad(5)$ 我们将这个过程重新屡一下：我们利用第 $i$ 次迭代的模型参数估计值得到了第 $i+1$ 次模型参数的估计值。
接下来就是不断重复算法的第2步和第3步，直到 $\theta$ 的估计值收敛。

三个问题

到现在，我们可能都会有三个问题：

为什么我们求解的是(2)式，我们却用(3)式进行迭代？(3)式是经过一系列的数学推导得到的，即这个迭代是有效的，具体请见本文EM算法的导出部分。
我们怎么能够保证在迭代的过程中 $\theta$ 会不断接近真实解？我们怎么能够保证迭代的过程收敛？我们也是通过一系列的数学推导得到的，具体请见本文EM算法收敛性证明部分。
EM算法怎么使用？一些概率我们写着可以得到，但是具体是怎么得到的？为了加深熟练EM算法，可以笔者的其他文章如EM算法在高斯混合模型中的应用，隐马尔科夫链等。

EM算法的导出

对包含隐变量的概率模型，我们的目标是极大化观测变量 $Y$ 对模型参数 $\theta$ 的极大似然估计：

l (θ) = l o g P (Y | θ) = l o g [\sum Z P (Y, Z | θ)] = l o g [\sum Z P (Y | Z, θ) P (Z | θ)] (6)

$l(\theta)=log\ P(Y|\theta)=log\ [\sum_{Z}P(Y,Z|\theta)]=log\ [\sum_{Z}P(Y|Z,\theta)P(Z|\theta)]\qquad(6)$
由于EM算法是通过迭代逐步近似极大化

l(θ) $l(\theta)$ 的，假设第

i $i$ 次迭代后

θ $\theta$ 的估计值是

θ(i) $\theta^{(i)}$ ，我们希望新估计值

θ $\theta$ 能使的

l(θ) $l(\theta)$ 增加，即

l(θ)>l(θ(i)) $l(\theta)>l(\theta^{(i)})$ ，所以我们考虑两者的差：

l (θ) - l (θ (i)) = l o g [\sum Z P (Y | Z, θ) P (Z | θ)] - l o g P (Y | θ (i)) (7)

$l(\theta)-l(\theta^{(i)})=log\ [\sum_{Z}P(Y|Z,\theta)P(Z|\theta)]-log\ P(Y|\theta^{(i)})\qquad(7)$

= l o g [\sum Z P (Z | Y, θ (i)) P ( Y | Z , θ ) P ( Z | θ ) P ( Z | Y , θ ( i ) ) P ( Y | θ ( i ) )] (8)

$=log\ [\sum_{Z} P(Z|Y,\theta^{(i)}) \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}]\qquad(8)$

⩾ \sum Z P (Z | Y, θ (i)) l o g P ( Y | Z , θ ) P ( Z | θ ) P ( Z | Y , θ ( i ) ) P ( Y | θ ( i ) ) (9)

$\geqslant \sum_{Z} P(Z|Y,\theta^{(i)}) log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}\qquad(9)$

(8)式到(9)式使用Jensen不等式得到。

Jensen不等式：
$l o g \sum j λ j y j ⩾ \sum j λ j l o g y j$ $log\sum_{j} \lambda_jy_j \geqslant \sum_j \lambda_jlog\ y_j$ 其中 $\lambda_j \geqslant 0, \sum_j \lambda_j=1.$

令：

B (θ, θ (i)) = l (θ (i)) + \sum Z P (Z | Y, θ (i)) l o g P ( Y | Z , θ ) P ( Z | θ ) P ( Z | Y , θ ( i ) ) P ( Y | θ ( i ) ) (10)

$B(\theta,\theta^{(i)})=l(\theta^{(i)})+\sum_{Z} P(Z|Y,\theta^{(i)}) log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}\qquad(10)$

则：

l (θ) ⩾ B (θ, θ (i)) (11)

$l(\theta) \geqslant B(\theta,\theta^{(i)}) \qquad(11)$
即

B(θ,θ(i)) $B(\theta,\theta^{(i)})$ 是

l(θ) $l(\theta)$ 的一个下界，由式(10)可以得到：

l (θ (i)) = B (θ (i), θ (i)) (12)

$l(\theta^{(i)})=B(\theta^{(i)},\theta^{(i)})\qquad(12)$
因此，任何使

B(θ,θ(i)) $B(\theta,\theta^{(i)})$ 增大的

θ $\theta$ ，也可以使

l(θ) $l(\theta)$ 增大。为了使

l(θ) $l(\theta)$ 有尽可能大的增长，选择

θ(i+1) $\theta^{(i+1)}$ 使

B(θ,θ(i)) $B(\theta,\theta^{(i)})$ 达到最大，即：

θ (i + 1) = a r g max θ B (θ, θ (i)) (13)

$\theta^{(i+1)}=arg\max_{\theta}B(\theta,\theta^{(i)})\qquad(13)$
现在求

θ(i+1) $\theta^{(i+1)}$ 的表达式，省略对

θ $\theta$ 的极大化而言是常数的项：

θ (i + 1) = a r g max θ [l (θ (i)) + \sum Z P (Z | Y, θ (i)) l o g P ( Y | Z , θ ) P ( Z | θ ) P ( Z | Y , θ ( i ) ) P ( Y | θ ( i ) )]

$\theta^{(i+1)}=arg\max_{\theta}[l(\theta^{(i)})+\sum_{Z} P(Z|Y,\theta^{(i)}) log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}]$

= a r g max θ \sum Z P (Z | Y, θ (i)) l o g P (Y | Z, θ) P (Z | θ)

$=arg\max_{\theta}\sum_{Z} P(Z|Y,\theta^{(i)}) log P(Y|Z,\theta)P(Z|\theta)$

= a r g max θ \sum Z P (Z | Y, θ (i)) l o g P (Y | Z, θ)

$=arg\max_{\theta}\sum_{Z} P(Z|Y,\theta^{(i)}) log P(Y|Z,\theta)$
现在是不是得到了E步中的迭代表达式？即：

θ (i + 1) = a r g max θ Q (θ, θ (i))

$\theta^{(i+1)}=arg\max_{\theta}Q(\theta,\theta^{(i)})$

到此我们的推导已经结束。

EM算法收敛性证明

定理1：设 $P(Y|\theta)$ 为观测数据的似然函数， $\theta^{(i)}(i=1,2,...)$ 为EM算法得到的参数估计序列， $P(Y|\theta^{(i)})(i=1,2,...)$ 为对数似然函数序列，则 $P(Y|\theta^{(i)})$ 是单调递增的，即：

P (Y | θ (i + 1)) ⩾ P (Y | θ (i))

$P(Y|\theta^{(i+1)}) \geqslant P(Y|\theta^{(i)})$ 证明略。。(可以参考文献1，p160-p162)

参考

[1]: 李航《统计学习方法》
[2]: Kevin P. Murphy 《Machine Learning: A Probabilistic Perspective》

walkeao

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
EM算法

EM算法 EM算法EM算法为什么使用EM两个事实EM算法过程三个问题EM算法的导出EM算法收敛性证明参考本文中，若无特殊说明，使用 Y,yY,y 表示观测变量，使用 Z,zZ,z 表示隐藏变量，θ\theta 表示模型参数。EM算法为什么使用EM? 概率模型有时既包含观测变量，也包含隐变量(或潜在变量)。如果模型只包含观测变量，则我们可以通过最大化对数似然 l(θ
复制链接

扫一扫