EM算法

最新推荐文章于 2018-08-15 18:43:47 发布

thriving_fcl

最新推荐文章于 2018-08-15 18:43:47 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/thriving_fcl/article/details/50889529

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

简介

EM算法也就是期望最大化算法，主要用来解决含有隐变量的参数估计问题。本文令 $X$ 表示已观测变量数据集， $Z$ 表示隐含标量数据集。对不含隐变量的参数估计问题，如最大化 $LL(\theta) = log P(X;\theta)$ ，只需要令 $P(X;\theta)$ 对参数 $\theta$ 求偏导。而对于含有隐含变量的，如 $P(X,Z;\theta)$ 并没有办法得到隐含变量的具体值，所以直接求解的方式就行不通了，EM算法就是用于解决此类问题的。

思想与算法步骤

先从最基本的说起，在已观测样本集 $X$ 的基础上，使用极大释然估计。写出 $log$ 释然函数如下

L L (θ | X) = l o g P (X; θ) = l o g \sum Z P (X, Z; θ)

$LL(\theta | X) = log P(X;\theta) = log \sum_Z P(X,Z;\theta)$

公式最右边是已观测数据的边际释然，如果可以得到隐含变量 $Z$ ，则可以直接写出释然函数 $LL(\theta | X,Z) = log P(X,Z;\theta)$ ，但是我们无法得到隐含变量 $Z$ ，这个时候就需要EM算法了，EM算法如何用于求 $LL(\theta|X,Z)$ 的最大化呢？

先介绍一下基本思想，如果有办法求出释然函数 $LL(\theta)$ 的一个下界函数，假设叫 $G(\theta)$ 吧，使得对所有参数 $\theta$ 都有 $LL(\theta) \ge G(\theta)$ 。而 $G(\theta)$ 中又不包含隐变量 $Z$ ，那么我们就可以用迭代的办法，先用 $\theta_t$ 得到 $G(\theta)$ ，然后最大化 $G(\theta)$ 得到参数 $\theta_{t+1}$ ，再令 $\theta_t = \theta_{t+1}$ ，一直到收敛，就近似的求出了 $LL(\theta)$ 的最大化了。这就是EM算法的基本思想。

回到具体的参数估计问题，EM算法分为两个步骤，E步(Expectation)求期望，M步(Maximization)最大化。E步的期望，就是给定 $\theta_t$ 时对数释然函数 $LL(\theta|X,Z)$ 的下界函数。这个期望是对数似然函数 $LL(\theta|X,Z)$ 关于隐变量 $Z$ 的期望，因为我们无法求出 $Z$ 的具体值，但是可以得到它在参数 $\theta_t$ 时的概率分布 $P(Z|X;\theta_t)$ ，因此期望可以写为

E Z | X; θ t [L L (θ | X, Z)] = E Z | X; θ t [l o g P (X, Z; θ)] = \sum Z P (Z | X; θ t) l o g P (X, Z; θ) (1)

$E_{Z|X;\theta_t} [LL(\theta|X,Z)] = E_{Z|X;\theta_t} [log P(X,Z;\theta)] \\ = \sum_Z P(Z|X;\theta_t) log P(X,Z;\theta) \tag 1$

算法的步骤如下
- 首先随机初始化参数 $\theta = \theta_0$
- 迭代直至收敛 {
1. E步：
根据 $\theta_t$ 计算 $P(Z|X;\theta_t)$ ，求期望

E Z | X; θ t [L L (θ | X, Z)] = E Z | X; θ [l o g P (X, Z; θ)] = \sum Z P (Z | X; θ t) l o g P (X, Z; θ)

$E_{Z|X;\theta_t} [LL(\theta|X,Z)] = E_{Z|X;\theta} [log P(X,Z;\theta)] \\ = \sum_Z P(Z|X;\theta_t) log P(X,Z;\theta)$
2. M步：
E步之后会得到一个只包含

θ $\theta$ 的函数，M步就是最大化这个函数，得到新的参数

θ $\theta$

θ t + 1 = arg max θ E Z | X; θ t [l o g P (X, Z; θ)]

$\theta_{t+1} = \arg\max_{\theta} E_{Z|X;\theta_t} [log P(X,Z;\theta)]$
}

原理

在上一部分已经介绍了EM算法的思想与步骤，但是还有一点没有说明白，那就是为什么对数似然函数 $LL(\theta|X,Z)$ 关于 $Z$ 的期望会是它自己的一个下界函数呢？首先引入Jensen不等式。

Jensen不等式

Jensen不等式对于凸函数 $f$ 有

E (f (X)) \geq f (E (X))

$E(f(X)) \ge f(E(X))$
也就是随机变量

X $X$ 函数值的期望大于等于随机变量期望的函数值。对于凹函数则相反。

在知道了Jensen不等式后，从最基本的情况进行推导

L L (θ | X) = l o g P (X; θ) = l o g \sum Z P (X, Z; θ)

$LL(\theta | X) = log P(X;\theta) = log \sum_Z P(X,Z;\theta)$

对上式的最右边用一个数学trick，同时乘和除得到隐变量 $Z$ 在参数 $\theta_t$ 下的概率分布，得到

L L (θ | X) = l o g \sum Z P (X, Z; θ) = l o g \sum Z P (Z | X; θ t) P ( X , Z ; θ ) P ( Z | X ; θ t )

$LL(\theta | X) = log \sum_Z P(X,Z;\theta) = log \sum_Z P(Z|X;\theta_t) \frac {P(X,Z;\theta)} {P(Z|X;\theta_t)}$

这样就得到了期望 $E_Z$ ，有

l o g E Z [P ( X , Z ; θ ) P ( Z | X ; θ t )]

$log E_Z [\frac {P(X,Z;\theta)} {P(Z|X;\theta_t)}]$
又因为log函数是凹函数，所以利用Jensen不等式可以得到 随机变量期望的函数值大于等于函数值的期望，也就是

l o g E Z [P ( X , Z ; θ ) P ( Z | X ; θ t )] \geq E Z [l o g P ( X , Z ; θ ) P ( Z | X ; θ t )]

$log E_Z [\frac {P(X,Z;\theta)} {P(Z|X;\theta_t)}] \ge E_Z [log \frac {P(X,Z;\theta)} {P(Z|X;\theta_t)}]$

这样也就找到了 $LL(\theta|X)$ 的下界函数。再把它展开得到

E Z [l o g P ( X , Z ; θ ) P ( Z | X ; θ t )] = \sum Z P (Z | X; θ t) l o g P ( X , Z ; θ ) P ( Z | X ; θ t ) = \sum Z P (Z | X; θ t) [l o g P (X, Z; θ) - l o g P (Z | X; θ t)]

$E_Z [log \frac {P(X,Z;\theta)} {P(Z|X;\theta_t)}] = \sum_Z P(Z|X;\theta_t) log \frac {P(X,Z;\theta)} {P(Z|X;\theta_t)} \\ = \sum_Z P(Z|X;\theta_t) [log P(X,Z;\theta) - log P(Z|X;\theta_t)]$

又因为 $P(Z|X;\theta_t)$ 与参数 $\theta$ 无关，在最大化的时候不会影响结果，因此舍去。那么就可以得到

\sum z P (Z | X; θ t) l o g P (X, Z; θ)

$\sum_z P(Z|X;\theta_t) log P(X,Z;\theta)$

也就是EM算法中E步的期望 $E_{Z|X;\theta_t} [LL(\theta|X,Z)]$ 了(参见公式1)。

小结

EM算法和其他一些可以直接编程，然后给定input就可以得到output的算法不太一样，它本身更可以理解为一种方法或者思想。因为 $P(Z|X;\theta_t)$ 与 $log P(X,Z;\theta)$ 都只是理论推导过程中的公式，具体的可计算公式还要根据具体的应用来给定，比如pLSA(probability latent semantic analysis)中参数的求解就需要用到EM算法，在这个情形下就可以编程实现来验证EM算法的效果了。