EM算法

最新推荐文章于 2022-05-12 20:39:57 发布

Paul-LangJun

最新推荐文章于 2022-05-12 20:39:57 发布

阅读量471

点赞数

文章标签：机器学习线性代数概率论

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/109604761

版权

一、背景

在通常的概率模型的参数估计问题中，给定观测变量的数值，运用极大似然估计即可得到待估计参数的值。但是，当除观测变量外还存在一些隐含变量，单纯通过极大似然估计无法得到解析解。

而 EM算法 却可以解决含有 隐变量 的参数估计问题，它的主要思想是通过迭代的方法来 近似估计 待估参数的最优值。

符号说明。设观测数据为 $\textbf{\textit{X}}$ ，待估计参数为 $\theta$ ，隐变量为 $\textbf{\textit{Z}}$ ，关于 $\theta$ 的概率估计模型为 $L(\theta )$ 。称 $\textbf{\textit{X}}$ 为不完全数据， $\textbf{\textit{X}}$ 连同 $\textbf{\textit{Z}}$ 为完全数据。

二、概率模型

一般的，没有隐变量的情况下，关于 $\theta$ 的概率模型为：

$L(\theta )=\log P(\textbf{\textit{X}}|\theta )$

在引入隐变量后的概率模型为：

$L(\theta )=\log \sum_\textbf{\textit{Z}} P(\textbf{\textit{X,\textbf{\textit{Z}}}}|\theta )=\log \left ( \sum _\textbf{\textit{Z}}P(\textbf{\textit{X}}|\textbf{\textit{Z}},\theta )P(\textbf{\textit{Z}}|\theta ) \right )$

这本质上是一个全概率公式，不同隐变量的取值构成事件的总体。

三、模型最大化

极大似然估计的问题，归结为最大化上述含有隐变量的概率模型：

$\max L(\theta )$

但是，上述极大化中存在隐含变量以及求和的对数，求解非常困难。

而EM用迭代的方式来最大化概率模型，若当前参数估计值为 $\theta _i$ ，我们希望下一轮的估计值 $\theta$ 要满足 $L(\theta)>L(\theta _i)$ 。
如何实现？ 理论上，EM是通过近似估计来估计概率模型的最大值，方法是通过 Jensen不等式 得到 $L(\theta)-L(\theta _i)$ 的一个下界，即

$L(\theta)-L(\theta _i)\geq f(\textbf{\textit{X}},\textbf{\textit{Z}},\theta ,\theta _i)$

等价的，

$L(\theta)\geq L(\theta _i)+f(\textbf{\textit{X}},\textbf{\textit{Z}},\theta ,\theta _i)$

因此， $L(\theta _i)+f(\textbf{\textit{X}},\textbf{\textit{Z}},\theta ,\theta _i)$ 就是 $L(\theta )$ 的下界，并当 $\theta =\theta _i$ 时使得等号成立。因此，只要能够最大化下界，亦能够达到最大化概率模型的目的。因此，下一轮的估计值 $\theta _{i+1}$ 为

$\theta _{i+1}=\max _{\theta }(L(\theta _i)+f(\textbf{\textit{X}},\textbf{\textit{Z}},\theta ,\theta _i))$

下界函数曲线在每一轮迭代都是不相同的。优化过程如下图所示，黑色函数表示 $L(\theta )$ ，橙色函数表示每轮迭代后的下界函数。

四、下界的解释

实际上，下界的精确形式为

$\sum _{\textbf{\textit{Z}} }P(\textbf{\textit{Z}}|\textbf{\textit{X}},\theta _i)\log P(\textup{\textbf{\textit{X},\textbf{\textit{Z}}}}|\theta )$

我们不关注公式的具体推导过程，而是尝试直观的解释一下下界的含义。上式等价于

$E_{\textbf{\textit{Z}}}[\log P(\textbf{\textit{X,Z}}|\theta )|\textbf{\textit{Z}},\theta _i]$

含义： 在当前轮参数 $\theta _i$ 和 $\textbf{\textit{Z}}$ 已知条件下关于完全数据对数似然的条件期望。即完全数据对数似然的加权平均，权重是在观测 $\textbf{\textit{X}}$ 和当前待估参数 $\theta _i$ 的条件下隐变量的取值为 $\textbf{\textit{Z}}$ 的概率。我们希望最大化这个加权平均，以更好的近似概率模型的最大值。如果对条件期望的含义不明确，可以参考条件数学期望。