【西瓜书笔记】8. EM算法（上）

西风瘦马1912

已于 2022-02-26 13:05:53 修改

阅读量571

点赞数 1

分类专栏：《机器学习》西瓜书第15期文章标签：概率论机器学习 EM算法极大似然估计

于 2022-02-26 10:47:41 首次发布

本文链接：https://blog.csdn.net/weixin_39236489/article/details/123146494

版权

《机器学习》西瓜书第15期专栏收录该内容

19 篇文章 0 订阅

订阅专栏

EM算法的引入

引入EM算法的原因：

概率模型有时候既含有观测变量，又含有隐变量或者潜在变量。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，或者贝叶斯估计法估计模型参数。但是当模型含有隐变量时，就不能简单地使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法。

EM算法的例子

《统计学习方法》例9.1（三硬币模型）：

假设有3枚硬币，分别记作A，B，C。这些硬币正面出现的概率分别是 $\pi$ ， $p$ 和 $q$ 。进行如下掷硬币试验: 先掷硬币A，根据其结果选出硬币B或硬币C，正面选硬币B，反面选硬币C;然后掷选出的硬币，掷硬币的结果，出现正面记作1，出现反面记作0;独立地重复n次实验(这里，n=10)，观测结果如下
$1, 1, 0, 1, 0, 0, 1, 0, 1, 1$
假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率，即三硬币模型的参数。

对于每一次实验可以进行如下建模：
$\mid \theta)=\sum_{z} P(y, z \mid \theta)=\sum_{z} P(z \mid \theta) P(y \mid z, \theta)$
随机变量y是观测变量，表示一次试验观测的结果是1或0;随机变量z是隐变量，表示未观测到的掷硬币A的结果。这里其实利用了 $P(A)=\sum_{B}P(A, B)$ ，以及 $B)=P(A)\cdot P(A|B)$ 。然后我们有
$\begin{aligned} P(y \mid \theta) &=\sum_{z} P(y, z \mid \theta)=\sum_{z} P(z \mid \theta) P(y \mid z, \theta) \\ &=P(z=1 \mid \theta) P(y \mid z=1, \theta)+P(z=0 \mid \theta) P(y \mid z=0, \theta) \\ &= \begin{cases}\pi p+(1-\pi) q, & \text { if } y=1 \\ \pi(1-p)+(1-\pi)(1-q), & \text { if } y=0\end{cases} \\ &=\pi p^{y}(1-p)^{1-y}+(1-\pi) q^{y}(1-q)^{1-y} \end{aligned}$
这里 $\theta=(\pi, p, q)$ 是模型参数。将观测数据表示为 $Y=\left(Y_{1}, Y_{2}, \ldots, Y_{n}\right)^{T}$ ，未观测数据表示为 $Z=\left(Z_{1}, Z_{2}, \ldots, Z_{n}\right)^{T}$ ,则观测数据的似然函数为每次实验累乘的结果：
$\mid \theta)=\sum_{Z} P(Z \mid \theta) P(Y \mid Z, \theta)=\prod_{j=1}^{n} P\left(y_{j} \mid \theta\right)\\ =\prod_{j=1}^{n}\left[\pi p^{y_{j}}(1-p)^{1-y_{j}}+(1-\pi) q^{y_{j}}(1-q)^{1-y_{j}}\right]$
考虑求模型参数 $\theta=(\pi, p, q)$ 的极大似然估计，也就是使用对数似然函数来进行参数估计可得：
$\begin{aligned} \hat{\theta} &=\arg \max _{\theta} \ln P(Y \mid \theta) \\ &=\arg \max _{\theta} \ln \prod_{j=1}^{n}\left[\pi p^{y_{j}}(1-p)^{1-y_{j}}+(1-\pi) q^{y_{j}}(1-q)^{1-y_{j}}\right] \\ &=\arg \max _{\theta} \sum_{j=1}^{n} \ln \left[\pi p^{y_{j}}(1-p)^{1-y_{j}}+(1-\pi) q^{y_{j}}(1-q)^{1-y_{j}}\right] \end{aligned}$
上式没有解析解，也就是没办法直接解出 $\pi, p, q$ 恰好等于某个常数a, b, c。因此我们只能用迭代的方法进行求解。

EM算法的导出

Jesen(琴生)不等式：

若 $f$ 是凸函数，则：
$f\left(t x_{1}+(1-t) x_{2}\right) \leq t f\left(x_{1}\right)+(1-t) f\left(x_{2}\right)$
其中， $\in[0,1]$ 。同理，如果 $f$ 是凹函数，则只需将上式中的 $\leq$ 换成 $\geq$ 即可。

将上式中的 $t$ 推广到 $n$ 个变量，同样成立：
$f\left(t_{1} x_{1}+t_{2} x_{2}+\ldots+t_{n} x_{n}\right) \leq t_{1} f\left(x_{1}\right)+t_{2} f\left(x_{2}\right)+\ldots+t_{n} f\left(x_{n}\right)$
其中， $t_{1}, t_{2}, \ldots, t_{n} \in[0,1], t_{1}+t_{2}+\ldots+t_{n}=1$ . 在概率论中常以以下形式出现
$\varphi(E[X]) \leq E[\varphi(X)]$
其中， $X$ 是随机变量， $\varphi$ 是凸函数， $E [X]$ 表示 $X$ 的期望。

我们面对一个含有隐变量的概率模型，目标是极大化观测数据Y关于参数θ的对数似然函数，即极大化:
$L(\theta)=\ln P(Y \mid \theta)=\ln \sum_{Z} P(Y, Z \mid \theta)=\ln \left(\sum_{Z} P(Y \mid Z, \theta) P(Z \mid \theta)\right)$
注意到这一极大化的主要困难是上式中有未观测数据Z并有包含和(Z为离散型时)或者积分(Z为连续型时)的对数。EM算法采用的是通过迭代逐步近似极大化 $L(\theta)$ 。假设在第i次迭代后 $\theta$ 的估计值是 $\theta^{(i)}$ ，我们希望新的估计值 $\theta$ 能够使 $L(\theta)$ 增加，即 $L(\theta)>L\left(\theta^{(i)}\right)$ 并逐步达到极大值。为此，我们考虑两者的差:
$\begin{aligned} L(\theta)-L\left(\theta^{(i)}\right) &=\ln \left(\sum_{Z} P(Y \mid Z, \theta) P(Z \mid \theta)\right)-\ln P\left(Y \mid \theta^{(i)}\right) \\ &=\ln \left(\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right)}\right)-\ln P\left(Y \mid \theta^{(i)}\right) \end{aligned}$
套用琴生不等式可有
$\begin{aligned} &\ln \left(\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right)}\right)-\ln P\left(Y \mid \theta^{(i)}\right)\\ &\geq \sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right)}-\ln P\left(Y \mid \theta^{(i)}\right) \\ &=\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right)}-1 \cdot \ln P\left(Y \mid \theta^{(i)}\right) \end{aligned}$
这里 $P\left(Z \mid Y, \theta^{(i)}\right)$ 相当于式(7)中的 $t_i$ ，对数函数相当于 $f$ 。这不过这里是凹函数，所以不等式方向相反。又因为 $1=\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right)$ 于是
$\begin{aligned} L(\theta)-L\left(\theta^{(i)}\right) & \geq \sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right)}-\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \cdot \ln P\left(Y \mid \theta^{(i)}\right) \\ &=\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right)\left(\ln \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right)}-\ln P\left(Y \mid \theta^{(i)}\right)\right) \\ &=\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right) P\left(Y \mid \theta^{(i)}\right)} \end{aligned}$
所以
$L(\theta) \geq L\left(\theta^{(i)}\right)+\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right) P\left(Y \mid \theta^{(i)}\right)}$
令
$B\left(\theta, \theta^{(i)}\right)=L\left(\theta^{(i)}\right)+\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right) P\left(Y \mid \theta^{(i)}\right)}$
则有
$L(\theta) \geq B\left(\theta, \theta^{(i)}\right)$
在第一次迭代的时候， $\theta_i$ 都是随机初始化的，通常初始化为 $\pi=p=q=0.5$ 。现在我们不去极大化 $L(\theta)$ ，因为前面说过这很困难。我们转而去极大化它的下界 $B\left(\theta, \theta^{(i)}\right)$ ，得到一个新的 $\theta$ ，然后把这个新的 $\theta$ 代入到 $L(\theta)$ ，看是不是能使得 $L(\theta)$ 变大。也就说 $B\left(\theta, \theta^{(i)}\right)$ 是 $L(\theta)$ 的一个下界，此时若设 $\theta^{(i+1)}$ 使得 $B\left(\theta, \theta^{(i)}\right)$ 达到极大(不是最大)，也即
$B\left(\theta^{(i+1)}, \theta^{(i)}\right) \geq B\left(\theta^{(i)}, \theta^{(i)}\right)$
进一步可得
$L\left(\theta^{(i+1)}\right) \geq B\left(\theta^{(i+1)}, \theta^{(i)}\right) \geq B\left(\theta^{(i)}, \theta^{(i)}\right)=L\left(\theta^{(i)}\right)\\ \Rightarrow L\left(\theta^{(i+1)}\right) \geq L\left(\theta^{(i)}\right)$
这里注意:
$B\left(\theta^{(i)}, \theta^{(i)}\right)=L\left(\theta^{(i)}\right)+\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \frac{P(Y \mid Z, \theta^{(i)}) P(Z \mid \theta^{(i)})}{P\left(Z \mid Y, \theta^{(i)}\right) P\left(Y \mid \theta^{(i)}\right)}\\ =L\left(\theta^{(i)}\right)+\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \frac{P(Y, Z\mid\theta^{(i)})}{P(Y, Z\mid\theta^{(i)})}\\ =L(\theta^{(i)})$
所以，任何可以使 $B(\theta, \theta^{(i)})$ 增大的 $\theta$ ，也可使 $L(\theta)$ 增大，于是问题转化为了求解能使得 $B\left(\theta, \theta^{(i)}\right)$ 达到极大的 $\theta^{(i+1)}$ ，即
$\begin{aligned} \theta^{(i+1)} &=\underset{\theta}{\arg \max } B\left(\theta, \theta^{(i)}\right) \\ &=\underset{\theta}{\arg \max }\left(L\left(\theta^{(i)}\right)+\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \frac{P(Y \mid Z, \theta) P(Z \mid \theta)}{P\left(Z \mid Y, \theta^{(i)}\right) P\left(Y \mid \theta^{(i)}\right)}\right) \\ &=\underset{\theta}{\arg \max }\left(\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln (P(Y \mid Z, \theta) P(Z \mid \theta))\right) \\ &=\underset{\theta}{\arg \max }\left(\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln P(Y, Z \mid \theta)\right) \\ &=\underset{\theta}{\arg \max } Q\left(\theta, \theta^{(i)}\right) \end{aligned}$
到此即完成了EM算法的一次迭代，求出的 $\theta^{(i+1)}$ 作为下一次迭代的初始 $\theta^{(i)}$ 。综上可以总结出EM算法的“E步”和“M步”分别为:

E步：计算完全数据的对数似然函数 $\ln P(Y, Z \mid \theta)$ 关于在给定观测数据 $Y$ 和当前参数 $\theta$ 下对未观测数据 $Z$ 的条件概率分布 $P\left(Z \mid Y, \theta^{(i)}\right)$ 的期望，也就是Q函数
$Q\left(\theta, \theta^{(i)}\right)=E_{Z}\left[\ln P(Y, Z \mid \theta) \mid Y, \theta^{(i)}\right]=\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln P(Y, Z \mid \theta)$
M步：求使得Q函数到达极大的 $\theta^{(i+1)}$ .

请添加图片描述

(souce:https://www.borealisai.com/en/blog/tutorial-5-variational-auto-encoders/)

西风瘦马1912

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【西瓜书笔记】8. EM算法（上）

EM算法的引入引入EM算法的原因：概率模型有时候既含有观测变量，又含有隐变量或者潜在变量。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，或者贝叶斯估计法估计模型参数。但是当模型含有隐变量时，就不能简单地使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法。EM算法的例子《统计学习方法》例9.1（三硬币模型）：假设有3枚硬币，分别记作A，B，C。这些硬币正面出现的概率分别是 π\piπ ，ppp 和 qqq 。进行如下掷硬币试验: 先掷硬币A，根据其结果选
复制链接

扫一扫