【李航统计学习笔记】第九章：EM算法

西风瘦马1912

已于 2022-08-15 05:31:15 修改

阅读量290

点赞数

分类专栏：李航统计学习笔记文章标签：机器学习统计学习 EM算法

于 2022-08-15 05:25:17 首次发布

本文链接：https://blog.csdn.net/weixin_39236489/article/details/126339363

版权

李航统计学习笔记专栏收录该内容

11 篇文章 2 订阅

订阅专栏

9.1 导论

三硬币模型

假设我们有随机变量 $z$ （观测不到的数据）： $\sim b(1, \pi)$ 。针对一系列样本 $\left(z_{1}, y_{1}\right)\left(z_{2}, y_{2}\right) \ldots \ldots\left(z_{N}, y_{N}\right)$ ，满足

若 $z_1=1, y_1 \sim b(1, p)$
若 $z_1=0, y_1 \sim b(1, q)$

如果 $(z, y)$ 是完全数据，则有 $\cdot p(y \mid z)$ 。

如果 $y$ 是不完全数据（观测数据），则有
$\prod_{i=1}^{\mathrm{N}} p\left(y_{i} \mid \theta\right)=\prod_{i=1}^{\mathrm{N}}\left[\sum_{z} p\left(y_{i}, z \mid \theta\right)\right]=\prod_{i=1}^{\mathrm{N}}\left[\pi p^{y_{i}}(1-p)^{1-y_{i}}+(1-\pi) q^{y_{i}}(1-q)^{1-y_{i}}\right.\\ \Rightarrow p(y, z \mid \theta), \quad \max \left(\ln \prod_{i=1}^{N} p\left(y_{i}, z_{i} \mid \theta\right)\right)$

E步： $z_{i} \rightarrow E(z) \rightarrow \theta^{(i)}, y_{i}$
M步: $\theta^{(i+1)}=\underset{\theta}{\arg \max } \ln \prod_{i=1}^{N}\left(p_{i}, E(z) \mid \theta\right)$

算法的引入

EM算法步骤

输入: 观测变量数据 $Y$ , 隐变量数据 $Z$ , 联合分布 $\mid \theta)$ , 条件分布 $\mid Y, \theta)$ ;

输出 : 模型参数 $\theta$ 。

(1) 选择参数的初值 $\theta^{(0)}$ , 开始迭代 ;

(2) $E$ 步 : 记 $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值, 在第 $i + 1$ 次迭代的 $E$ 步, 计算 $Q\left(\theta, \theta^{(i)}\right)=E_{Z}\left[\log P(Y, Z \mid \theta) \mid Y, \theta^{(i)}\right]$

(3) $M$ 步 : 求使 $Q\left(\theta, \theta^{(i)}\right)$ 极大化的 $\theta$ , 确定第 $i + 1$ 次迭代的参数的估计值 $\theta^{(i+1)}$ $\theta^{(i+1)}=\operatorname{argmax}_{\theta} Q\left(\theta, \theta^{(i)}\right)$

(4) 重复第 (2) 步和第（3）步，直到收敛。 $Q\left(\theta^{(i+1)}, \theta^{(i)}\right) \leftarrow Q \left(\theta^{(i)}, \theta^{(i-1)}\right)$

式 (9.9)的函数 $Q\left(\theta, \theta^{(i)}\right)$ 是 $EM$ 算法的核心，称为 $Q$ 函数（ $Q$ function）

定理9.1

设 $\mid \theta)$ 为观测数据的似然函数， $\theta^{(i)}(i=1,2, \ldots)$ 为 $EM$ 算法得到的参数估计序列， $P\left(Y \mid \theta^{(i)}\right)(i=1,2 ， \ldots)$ 为对应的似然函数序列，则 $P\left(Y \mid \theta^{(i)}\right)$ 是单调递增的，即
$P\left(Y \mid \theta^{(i+1)}\right) \geq P\left(Y \mid \theta^{(i)}\right)$

定理2

设 $L(\theta)=\log P(Y \mid \theta)$ 为观测数据的对数似然函数， $\theta^{(i)}(i=1,2, \ldots)$ 为
$EM$ 算法得到的参数估计序列， $L\left(\theta^{(i)}\right)(i=1,2, \ldots)$ 为对应的对数似然函数序列。
(1) 如果 $\mid \theta)$ 有上界，则 $L\left(\theta^{(i)}\right)=\log P\left(Y \mid \theta^{(i)}\right)$ 收敛到某一值 $L$ ；
(2) 在函数 $Q\left(\theta, \theta^{\prime}\right)$ 与 $L(\theta)$ 满足一定条件下，由 $EM$ 算法得到的参数估计序列 $\theta^{(i)}$ 的收敛值 $\theta$ 是 $L(\theta)$ 的稳定点。

总结

EM算法通过迭代求解观测数据的对数似然函数的极大化，实现极大似然估计。
EM的极大似然估计中包含两个步骤：E步求期望和M步求极大。
EM算法在每次迭代后均提高观测数据的似然函数值。

9.2 EM算法的导出

$\begin{aligned} L(\theta)=\ln P(Y \mid \theta) &=\ln \sum_{Z} P(Y, Z \mid \theta)=\ln \left(\sum_{Z} P(Z \mid \theta) P(Y \mid Z, \theta)\right) \\ L(\theta)-L\left(\theta^{(i)}\right) &=\ln \left(\sum_{Z} P(Z \mid \theta) P(Y \mid Z, \theta)\right)-\ln P\left(Y \mid \theta^{(i)}\right) \\ &=\ln \left(\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \frac{P(Z \mid \theta) P(Y \mid Z, \theta)}{P\left(Z \mid Y, \theta^{(i)}\right)}\right)-\ln P\left(Y \mid \theta^{(i)}\right) \\ & \sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \left(\frac{P(Z \mid \theta) P(Y \mid Z, \theta)}{P\left(Z \mid Y, \theta^{(i)}\right)}\right)-\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln P\left(Y \mid \theta^{(i)}\right) \\ &=\sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right) \ln \left(\frac{P(Z \mid \theta) P(Y \mid Z, \theta)}{P\left(Z \mid Y, \theta^{(i)}\right) P\left(Y \mid \theta^{(i)}\right)}\right) \end{aligned}$

然后我们有
$\begin{aligned} \theta^{(i+1)} &=\underset{\theta}{\operatorname{argmax}} B\left(\theta, \theta^{(i)}\right) \\ &=\underset{\theta}{\operatorname{argmax}} \sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right)(\ln P(Z \mid \theta) P(Y \mid Z, \theta)) \\ &=\underset{\theta}{\operatorname{argmax}} \sum_{Z} P\left(Z \mid Y, \theta^{(i)}\right)(\ln P(Y, Z \mid \theta)) \end{aligned}$
最后
$\underset{\theta}{\operatorname{argmax}} Q\left(\theta, \theta^{(i)}\right)$

总结

EM算法通过迭代逐步近似极大化L。
为了每次都能够极大化 $L$ ，需保证每个步骤中 $L(\theta)-$ $L\left(\theta^{(i)}\right)$ 大于0。
通过找到当前 $L(\theta)-L\left(\theta^{(i)}\right)$ 的下界，不断提高该下界即可。

9.3 高斯混合模型

(to be continue )

西风瘦马1912

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【李航统计学习笔记】第九章：EM算法

EM算法通过迭代求解观测数据的对数似然函数的极大化，实现极大似然估计。EM的极大似然估计中包含两个步骤：E步求期望和M步求极大。EM算法在每次迭代后均提高观测数据的似然函数值。EM算法通过迭代逐步近似极大化L。为了每次都能够极大化LLL，需保证每个步骤中L(θ)−L(\theta)-L(θ)−L(θ(i))L(θ(i))大于0。通过找到当前L(θ)−L(θ(i))L(θ)−L(θ(i))......
复制链接

扫一扫