EM算法

最新推荐文章于 2023-08-12 10:25:34 发布

Rachel_nana

最新推荐文章于 2023-08-12 10:25:34 发布

阅读量1.2k

点赞数

分类专栏：西瓜书-机器学习机器学习

本文链接：https://blog.csdn.net/abcdrachel/article/details/96455064

版权

西瓜书-机器学习同时被 2 个专栏收录

8 篇文章 2 订阅

订阅专栏

机器学习

7 篇文章 0 订阅

订阅专栏

EM算法是一种迭代算法，由Dempster等人于1977年总结提出，主要用于解决含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。

EM算法的每次迭代主要由两步组成：E步，求期望；M步，求极大。所以这一算法称为期望极大算法，简称EM算法。

1.EM算法的引入

概率模型有时既含有观测变量，又含有隐变量或潜在变量。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，或贝叶斯估计法估计模型参数。但是，当模型含有隐变量时，就不能简单地使用这些方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。

三硬币模型

假设有三枚硬币，分别记作A，B，C。这些硬币正面出现的概率分别是 $\pi$ ，和。进行如下掷硬币试验：先掷硬币A，根据其结果选出硬币B或硬币C，正面选硬币B，反面选硬币C；然后掷选出的硬币，掷硬币的结果，出现正面记作1，出现反面记作0；独立重复n 次试验（这里，n=10），观测结果如下：

1,1,0,1,0,0,1,0,1,1

假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率，即三硬币模型的参数。

三硬币模型可以写作：

这里随机变量是观测变量，表示一次试验观测的结果是1或0；随机变量是隐变量，表示未观测到的掷硬币A的结果； $\theta =(\pi ,p,q)$ 是模型参数。

注意：随机变量的数据是可以观测的，随机变量的数据不可观测。

将观测数据表示为 $Y=(Y_{1},Y_{2},\cdots ,Y_{n})^{T}$ ，未观测数据表示为 $Z=(Z_{1},Z_{2},\cdots,Z_{n})^{T}$ ，则观测数据的似然函数为

所以当y=1时，其概率为 $\pi p+(1-\pi)q$ ；当y=0时，其概率为 $\pi(1-p)+(1-\pi)(1-q)$ 。

所以 $P(y|\theta) = \pi p^{y}(1-p)^{1-y} +(1-\pi)q^{y}(1-q)^{1-y}$ ，因此：

考虑求模型参数 $\theta =(\pi ,p,q)$ 的极大似然估计，即

这个问题没有解析解，只有通过迭代的方法求解，EM算法就是可以用于求解这个问题的一种迭代算法。

2.EM算法的导出

Jensen不等式：

若是凸函数，则：

$f(tx_{1}+(1-t)x_{2})\leq tf(x_{1}) + (1-t)f(x_{2})$

其中， $t\in [0,1]$ 。同理，若为凹函数，则只需将上式中的 $\leq$ 换成 $\geq$ 即可。

将上式中的推广到个同样成立，也即：

$f(t_{1}x_{1}+t_{2}x_{2}+\cdots+t_{n}x_{n})\leq t_{1}f(x_{1})+t_{2}f(x_{2})+\cdots+t_{n}f(x_{n})$

其中， $t_{1},t_{2},\cdots,t_{n} \in [0,1]$ ， $t_{1}+t_{2}+\cdots+t_{n} = 1$ 。在概率论中常以以下形式出现：

$\varphi (E[X])\leq E[\varphi (X)]$

其中，是随机变量， $\varphi$ 是凸函数， E[X] 表示的期望。

我们面对一个含有隐变量的概率模型，目标是极大化观测数据关于参数 $\theta$ 的对数似然函数，即极大化

$L(\theta) = lnP(Y|\theta) = ln \sum_{Z} P(Y,Z|\theta) =ln(\sum_{Z}P(Y|Z,\theta)P(Z|\theta))$

注意这一极大化的主要困难是上式中未观测数据并有包含和（为离散型时）或积分（为连续型时）的对数。EM算法采用的是通过迭代逐步近似极大化 $L(\theta)$ ：假设在第次迭代后 $\theta$ 的估计值是 $\theta^{i}$ ，我们希望新的估计值 $\theta$ 能使 $L(\theta)$ 增加，即 $L(\theta)>L(\theta^{i})$ ，并逐步达到极大值。为此，我们考虑两者的差：

利用Jensen不等式得到其下界：（红色框写错了，应该写为蓝色框的内容）

令

则

即函数 $B(\theta,\theta^{(i)})$ 是 $L(\theta)$ 的一个下界，此时若设 $\theta^{(i+1)}$ 使得 $B(\theta,\theta^{(i)})$ 达到极大，也即 $B(\theta^{(i+1)},\theta^{(i)})\geq B(\theta^{(i)},\theta^{(i)})$

由于 $B(\theta^{(i)},\theta^{(i)}) = L(\theta^{(i)})$ ，所以可以进一步推得：

$L(\theta^{(i+1)})\geq B(\theta^{(i+1)},\theta^{(i)})\geq B(\theta^{(i)},\theta^{(i)}) =L(\theta^{(i)})$

因此，任何可以使 $B(\theta,\theta^{(i)})$ 增大的 $\theta$ ，也可以使 $L(\theta)$ 增大，于是问题就转化为了求解能使得 $B(\theta,\theta^{(i)})$ 达到极大的 $\theta^{(i+1)}$ ，即

到此即完成了EM算法的一次迭代，求出的 $\theta^{(i+1)}$ 作为下一次迭代的初始 $\theta^{(i)}$ 。

EM算法通过迭代 $L(\theta) = logP(Y|\theta)$ 的极大似然估计。每次迭代包含两步：E步：求期望（用给定参数的条件下，用 $z_{i}$ $z_{i}$ 的期望去代替每个 $z_{i}$ 的值，得到用期望替代后的对数似然函数；

M步：求极大（求替代后的对数似然函数Q函数的极大化）。

Q函数：完全数据的对数似然函数 $logP(Y,Z|\theta)$ 关于在给定观测数据和当前参数 $\theta^{i}$ 下对未观测数据的条件概率分布 $P(Y,Z|\theta^{i})$ 的期望称为Q函数，即

EM算法注意点：

1.参数的初值可以任意选择，但需注意EM算法对初值是敏感的。

EM算法求解例子（三硬币模型）

E步：导出Q函数

综上：

Rachel_nana

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
EM算法

EM算法是一种迭代算法，由Dempster等人于1977年总结提出，主要用于解决含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代主要由两步组成：E步，求期望；M步，求极大。所以这一算法称为期望极大算法，简称EM算法。1.EM算法的引入概率模型有时既含有观测变量，又含有隐变量或潜在变量。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，...
复制链接

扫一扫

专栏目录