EM算法

最新推荐文章于 2023-08-12 10:25:34 发布

march_on

最新推荐文章于 2023-08-12 10:25:34 发布

阅读量1k

点赞数

分类专栏： machine learning 文章标签： EM

本文链接：https://blog.csdn.net/march_on/article/details/49703041

版权

machine learning 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

下面是《统计学习方法》EM算法的笔记。
EM算法是一种针对含有隐变量的模型的参数估计方法，具体来说是极大似然估计和最大后验概率估计。

该算法分为两步，第一步求期望，第二步对期望进行最大化。

首先，我们定义Y是观测变量，Z是隐变量。其中Y又称为不完全数据，Y、Z在一起称为完全数据。

第一步求的是下面这个函数的期望:

Q (θ, θ i) = E Z [l o g P (Y, Z | θ) | Y, θ i] = \sum z l o g P (Y, Z | θ) P (Z | Y, θ i)

$Q(\theta, \theta^{i})=E_Z[logP(Y,Z|\theta)|Y,\theta^i] \\ =\sum_z logP(Y,Z|\theta)P(Z|Y,\theta^i)$
即求完全数据的对数似然函数关于在给定观测数据Y和当前估计参数

θ(i) $\theta^{(i)}$ 下对未观测数据Z的条件概率分布

p(Z|Y,θ(i)) $p(Z|Y,\theta^{(i)})$ 的期望。

下面介绍EM算法是怎么来的

对于含有隐变量的概率模型，我们的目标是最大化观测数据的对数似然函数：

L (θ) = l o g P (Y | θ) = l o g \sum z P (Y, Z | θ) = l o g \sum z P (Y | Z, θ) P (Z, θ)

$L(\theta)=logP(Y|\theta)=log\sum_zP(Y,Z|\theta)\\ =log\sum_zP(Y|Z,\theta)P(Z,\theta)$
这个问题极大化的难度在于含有和的对数形式，这样在进行求导时还是包含这个东西。

EM算法的思想是通过迭代的方式来近似地极大化 $L(\theta)$ 。

假设第i次迭代后 $\theta$ 的估计值为 $\theta^i$ .我们希望新的估计值可以使 $L(\theta)$ 增大，即 $L(\theta)>L(\theta^i)$ ,并逐步达到最大值。
我们考虑这二者的差

L (θ) - L (θ i) = l o g (\sum z P (Y | Z, θ) P (Z | θ)) - l o g P (Y | θ i)

$L(\theta)-L(\theta^i)=log(\sum_zP(Y|Z,\theta)P(Z|\theta))-logP(Y|\theta^i)$

利用jensen不等式得到下界。

L (θ) - L (θ i) = l o g (\sum z P (Z | Y, θ i) P ( Y | Z , θ ) P ( Z | θ ) P ( Z | Y , θ i ) - l o g P (Y | θ i)) \geq \sum z P (Z | Y, θ i) l o g P ( Y | Z , θ ) P ( Z | θ ) P ( Z | Y , θ i ) - \sum z P (Z | Y, θ i) l o g P (Y | θ i) = \sum P (Z | Y, θ i) l o g P ( Y | Z , θ ) P ( Z | θ ) P ( Z | Y , θ i ) P ( Y | θ i )

$L(\theta)-L(\theta^i)=log(\sum_zP(Z|Y,\theta^i)\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)} -logP(Y|\theta^i))\\ \ge \sum_zP(Z|Y,\theta^i) log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)}-\sum_zP(Z|Y,\theta^i)logP(Y|\theta^i)\\ =\sum P(Z|Y,\theta^i)log\frac{P(Y|Z,\theta^)P(Z|\theta)}{P(Z|Y,\theta^i)P(Y|\theta^i)}$
令

B (θ, θ i) = L (θ i) + \sum P (Z | Y, θ i) l o g P ( Y | Z , θ ) P ( Z | θ ) P ( Z | Y , θ i ) P ( Y | θ i )

$B(\theta, \theta^i)=L(\theta^i)+\sum P(Z|Y,\theta^i)log\frac{P(Y|Z,\theta^)P(Z|\theta)}{P(Z|Y,\theta^i)P(Y|\theta^i)}$
即

L (θ) \geq B (θ, θ i)

$L(\theta)\ge B(\theta, \theta^i)$
即

B(θ,θi) $B(\theta, \theta^i)$ 是

L(θ) $L(\theta)$ 的一个下界。那么任何可以让

B(θ,θi) $B(\theta, \theta^i)$ 增大的

θ $\theta$ 也同时可以让

L(θ) $L(\theta)$ 增大。所以我们最大化

B(θ,θi) $B(\theta, \theta^i)$ 的话

L(θ) $L(\theta)$ 也会有相当程度的增大，即

θ i + 1 = a r g m a x B (θ, θ i) = a r g m a x (L (θ i) + \sum P (Z | Y, θ i) l o g P ( Y | Z , θ ) P ( Z | θ ) P ( Z | Y , θ i ) P ( Y | θ i )) = a r g m a x (\sum P (Z | Y, θ i) l o g P (Y | Z, θ) P (Z | θ)) = a r g m a x (Q (θ, θ i))

$\theta^{i+1}=arg max B(\theta, \theta^i)\\ =argmax{(L(\theta^i)+\sum P(Z|Y,\theta^i)log\frac{P(Y|Z,\theta^)P(Z|\theta)} {P(Z|Y,\theta^i)P(Y|\theta^i)})}\\ =argmax(\sum P(Z|Y,\theta^i)logP(Y|Z,\theta)P(Z|\theta))\\ =argmax(Q(\theta, \theta^i))$
其中第二步是把所有常数项都去掉了。

至此，我们就导出了EM算法的目标函数了。