EM算法expection maximization

最新推荐文章于 2021-09-12 15:50:41 发布

thinker_1120

最新推荐文章于 2021-09-12 15:50:41 发布

阅读量675

点赞数

分类专栏：算法原理

本文链接：https://blog.csdn.net/cymy001/article/details/78264648

版权

算法原理专栏收录该内容

31 篇文章 2 订阅

订阅专栏

本文是《统计学习方法》李航著学习笔记。
EM算法本身并不是一种能进行预测的机器学习算法，它只能算作“某个整体机器学习预测算法概率模型”建模过程中的一个重要的概率参数估计算法，它的地位等价于“极大似然估计”，只不过它是处理“含有隐变量的”概率模型参数估计算法。

通常，监督学习的训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),\cdots,(x_{N},y_{N})\}$ 中 $x_{i}=(x^{1}_{i},x^{2}_{i},\cdots,x^{n}_{i})\in R^n$ 的各维度的数据是全部已知的，但是有些情况会出现无法观测的情况，即某个 $x^{j}_{i}$ ，其中 $i=1,2,\cdots,N,j=1,2,\cdots,n$ 无法给出，这时称该维度数据为“隐变量”，相应给定维度的数据称为“观测数据”，隐变量和观测数据组成“完全数据”。存在隐变量时，如何进行先验概率和条件概率的估计？显然不能直接利用极大似然估计，这时利用EM算法就可以估计“先验概率”和“条件概率”，就是所谓的概率模型参数估计。得到先验概率和条件概率后，可以类似朴素贝叶斯算法一样，构建后验概率模型，进行分类问题预测。有关朴素贝叶斯和极大似然估计的内容请参考http://blog.csdn.net/cymy001/article/details/78016109

注：可以将《统计学习方法》书中的符号对应映射作 $Y,Z\rightarrow \widehat{X}$ ， $\theta\rightarrow\widehat{Y}$ ，则学习先验概率 $P(\widehat{Y})=P(\theta)$ ，学习条件概率 $P(\widehat{X}|\widehat{Y})=P(Y,Z|\theta)$ ，利用先验概率、条件概率及贝叶斯定理得后验概率 $P(\widehat{Y}|\widehat{X})=P(\theta|Y,Z)$ ，即对于新给定的预测完全数据 $Y, Z$ ，求后验概率 $P(\theta|Y,Z)$ 最大的 $\theta$ 对应的分类就是该预测实例点所在类。

下面重点叙述有关EM算法的模型的内容：包括EM算法的导出，EM算法的收敛性，EM算法的F函数解释，高斯混合模型的构建方法。

EM算法的导出

对于含有隐变量的概率模型，优化目标是极大化观测数据 $Y$ 关于参数 $\theta$ 的对数似然函数
$L(\theta)=logP(Y|\theta)=log\sum\limits_{Z}P(Y,Z|\theta)=log\sum\limits_{Z}\Big(P(Y|Z,\theta)P(Z|\theta)\Big)$
由于上式包含关于未知隐变量 $P(Z|\theta)$ 的求和，所以不能直接求解，利用EM算法迭代求解：找到使 $L(\theta)$ 递增的参数序列 $\theta^{(i)}$ 。下面通过寻找下界函数的方法，寻求 $L(\theta)$ 极大化的弱化条件。
$L(\theta)-L(\theta^{(i)})=log\sum\limits_{Z}\Big(P(Y|Z,\theta)P(Z|\theta)\Big)-logP(Y|\theta^{(i)})\\ =log\Big(\sum\limits_{Z}P(Z|Y,\theta^{(i)})\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})}\Big)-logP(Y|\theta^{(i)})\\ \geq \sum\limits_{Z}P(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})}-\sum\limits_{Z}\frac{P(Y,Z|\theta^{(i)})}{P(Y|\theta^{(i)})}logP(Y|\theta^{(i)})\\ =\sum\limits_{Z}P(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}$
所以
$L(\theta)\geq L(\theta^{(i)})+\sum\limits_{Z}P(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}\triangleq B(\theta,\theta^{(i)})$
所以 $B(\theta,\theta^{(i)})$ 是 $L(\theta)$ 的一个下界，并且当 $\theta=\theta^{(i)}$ 时， $L(\theta^{(i)})=B(\theta^{(i)},\theta^{(i)})$ 。也就是，可以使 $B(\theta,\theta^{(i)})$ 增大的 $\theta$ ，也可以使 $L(\theta)$ 增大。所以，极大化 $L(\theta)$ 可以转化为极大化 $B(\theta,\theta^{(i)})$
$\theta^{(i+1)}=arg\max\limits_{\theta}B(\theta,\theta^{(i)})=arg\max\limits_{\theta}\Big(L(\theta^{(i)})+\sum\limits_{Z}P(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}\Big)\\ =arg\max\limits_{\theta}\Big(L(\theta^{(i)})-\sum\limits_{Z}P(Z|Y,\theta^{(i)})log(P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)}))+\sum\limits_{Z}P(Z|Y,\theta^{(i)})log(P(Y|Z,\theta)P(Z|\theta))\Big)\\ =arg\max\limits_{\theta}\Big(\sum\limits_{Z}P(Z|Y,\theta^{(i)})log(P(Y|Z,\theta)P(Z|\theta))\Big)\triangleq Q(\theta,\theta^{(i)})$
上式证明中用到了 $\sum\limits_{Z}P(Z|Y,\theta^{(i)})=1$ ，此外， $Q 函数$ ： $Q(\theta,\theta^{(i)})$ 是“完全数据的对数似然函数 $logP(Y,Z|\theta)$ ”对“未观测数据 $Z$ 的条件概率分布 $P(Z|Y,\theta^{(i)})$ ”的期望。
综上所述，EM算法实现参数 $\theta$ 的更新包括：求 $Q(\theta,\theta^{(i)})$ 函数，即期望expectation步；求 $arg\max\limits_{\theta}Q(\theta,\theta^{(i)})$ ，即极大化maximization步。

EM算法的收敛性

$T h e o r y$ ：观测数据的似然函数 $P(Y|\theta)$ 关于EM算法得到的参数序列 $\theta^{(i)}$ 是单增的，即 $P(Y|\theta^{(i+1)})\geq P(Y|\theta^{(i)})$ 。

$P r o o f$ ：
$logP(Y|\theta)=log\frac{P(Y,Z|\theta)}{P(Z|Y,\theta)}=logP(Y,Z|\theta)-logP(Z|Y,\theta)$
对上式左右两侧都乘 $P(Z|Y,\theta^{(i)})$ ，再对 $Z$ 遍历求和得
$\sum\limits_{Z}logP(Y|\theta)P(Z|Y,\theta^{(i)})=\sum\limits_{Z}logP(Y,Z|\theta)P(Z|Y,\theta^{(i)})-\sum\limits_{Z}logP(Z|Y,\theta)P(Z|Y,\theta^{(i)})$
其中
$左边=\sum\limits_{Z}logP(Y|\theta)P(Z|Y,\theta^{(i)})=\sum\limits_{Z}P(Z|Y,\theta^{(i)})logP(Y|\theta)=logP(Y|\theta)$
$右边=Q(\theta,\theta^{(i)})-\sum\limits_{Z}logP(Z|Y,\theta)P(Z|Y,\theta^{(i)})$
所以
$logP(Y|\theta)=Q(\theta,\theta^{(i)})-\sum\limits_{Z}logP(Z|Y,\theta)P(Z|Y,\theta^{(i)})$
考虑
$logP(Y|\theta^{(i+1)})-logP(Y|\theta^{(i)})=Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)}) +\sum\limits_{Z}log\frac{P(Z|Y,\theta^{(i+1)})}{P(Z|Y,\theta^{(i)})}P(Z|Y,\theta^{(i)})\\ =Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)})$
由序列 $\theta^{(i)}$ 的生成过程知， $\theta^{(i+1)}$ 是使 $Q(\theta,\theta^{(i)})$ 达到极大的点，所以
$Q(\theta^{(i+1)},\theta^{(i)})\geq Q(\theta^{(i)},\theta^{(i)})$ ，从而得证定理。

注：EM算法对参数初值的选取较敏感，一般选取几个不同的初值进行迭代和最后的估计值比较选取。EM算法得到的参数序列收敛到对数似然函数序列的稳定点，但是不能保证收敛到极大值点。

EM算法的F函数解释

EM算法可以解释为 $F 函数$ 的极大-极大算法：第一步极大化指，固定参数 $\theta$ ，求隐变量数据 $Z$ 的概率分布使 $F 函数$ 极大化；第二步极大化指，固定第一步得到的 $Z$ 的概率分布，求参数 $\theta$ 使 $F 函数$ 极大化。这里， $F 函数$ 相比于 $Q 函数$ ，主要是利用求极大化目标函数的转化得到的， $F 函数$ 的第一步极大化相当于求 $Q 函数$ ，第一步极大化相当于求 $arg\max\limits_{\theta}Q(\theta,\theta^{(i)})$ 。

$D e f i n a t i o n$ ： $\widetilde{P}(Z)$ 是隐变量 $Z$ 的概率分布，分布 $\widetilde{P}(Z)$ 的熵为 $H(\widetilde{P})=-\widetilde{P}(Z)log\widetilde{P}(Z)=-E_{\widetilde{P}}\widetilde{P}(Z)$ ，定义分布 $\widetilde{P}$ 与参数 $\theta$ 的函数
$F(\widetilde{P},\theta)=E_{\widetilde{P}}[logP(Y,Z|\theta)]+H(\widetilde{P})$
为 $F 函数$ 。
显然，此时 $\sum\limits_{Z}\widetilde{P}(Z)=1$ ，则将约束优化 $F 函数$ 转化成无约束的Lagrange函数求极大值问题 $Lf=F(\widetilde{P},\theta)+\lambda(1-\sum\limits_{Z}\widetilde{P}(Z))$ 。首先， $L f$ 关于 $\widetilde{P}(Z)$ 求偏导数，得到是 $L f$ 极大化的 $\widetilde{P}_{\theta}(Z)=P(Z|Y,\theta)$ ；再将 $\widetilde{P}_{\theta}(Z)$ 带回 $F(\widetilde{P},\theta)$ 化简得 $F(\widetilde{P},\theta)=logP(Y|\theta)=Lf(\theta)$ 。由 $\widetilde{P}_{\theta}$ 关于 $\theta$ 的连续性可证， $F(\widetilde{P},\theta)$ 和 $Lf(\theta)$ 取到极值具有同步性。

最后，看一下 $F 函数$ 和 $Q 函数$ 的关系：
由第一步 $L f$ 极大化，固定 $\theta^{(i)}$ 求得 $\widetilde{P}^{(i+1)}(Z)=P(Z|Y,\theta^{(i)})$ ，此时
$F(\widetilde{P}^{(i+1)},\theta)=E_{\widetilde{P}^{(i+1)}}[logP(Y,Z|\theta)]+H(\widetilde{P}^{(i+1)})\\ =\sum\limits_{Z}logP(Y,Z|\theta)P(Z|Y,\theta^{(i)})+H(\widetilde{P}^{(i+1)})\\ =Q(\theta,\theta^{(i)})+H(\widetilde{P}^{(i+1)})$
显然， $H(\widetilde{P}^{(i+1)})$ 项在极大化 $\theta$ 时是无关项，所以得证。进而，极大化 $Q 函数$ 可以转化成极大化 $F 函数$ ，即对应GEM算法的相关内容。

高斯混合模型的构建方法

所谓的“混合模型”就是对单个概率模型做凸组合形成的模型，其中，最常用的是高斯分布概率分布（也叫“正态分布”）凸组合形成的“高斯混合模型”，该模型的数学表达如下
$P(y|\theta)=\sum\limits_{k=1}^{K}\alpha_{k}\phi(y|\theta_{k})=\sum\limits_{k=1}^{K}\alpha_{k}\frac{1}{\sqrt{2\pi}\sigma_{k}}exp\Big(-\frac{(y-\mu_{k})^{2}}{2\sigma^2_{k}}\Big)$
上式中 $\alpha_{k}\geq0,\sum\limits_{k=1}^{K}\alpha_{k}=1$ 。

通常，需要根据给定的观测数据 $y_{1},y_{2},\cdots,y_{N}$ ，利用EM算法求“高斯混合模型” $P(y|\theta)$ 的参数 $\theta=(\alpha_{1},\cdots,\alpha_{K},\mu_{1},\cdots,\mu_{K},\sigma_{1},\cdots,\sigma_{K})$ 。将 $y_{i}$ 看成来自“某一个高斯模型”，这是一个隐含的中间过程，所以定义隐变量
$\gamma_{jk}=\begin{cases} 1，第j个观测y_{j}来自第k个分模型\phi(y|\theta_{k}) \cr 0，否则\end{cases}$
显然 $\gamma_{jk}$ 是0-1随机变量，且 $\sum\limits_{k=1}^{K}\sum\limits_{j=1}^{N}\gamma_{jk}=N$ 。

对完全数据的 $(y_{j},\gamma_{j1},\cdots,\gamma_{jK})，j=1,\cdots,N$ 求其对数似然函数 $logP(y,\gamma|\theta)$ ；对数似然函数关于隐变量 $\gamma_{jk}$ 求期望，得 $Q(\theta,\theta^{(i)})$ 函数；再加上限制 $\sum\limits_{k=1}^{K}\alpha_{k}=1$ ，利用Lagrange乘子法求参数 $\theta$ 的值。