第9章EM算法及推广.9.1 导论

最新推荐文章于 2022-07-17 11:01:10 发布

oldmao_2000

最新推荐文章于 2022-07-17 11:01:10 发布

阅读量283

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/oldmao_2001/article/details/115485654

版权

统计学习方法专栏收录该内容

36 篇文章 16 订阅

订阅专栏

文章目录

前言
例9.1 三硬币模型
EM算法
EM算法的导出
小结

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考：在线Latex公式

前言

任务简介：理解EM算法的思想和E步、M步的求解过程。
详细说明：第9章介绍了EM算法，EM算法用于含有隐变量的概率模型的参数估计。EM算法不是一个具体的分类或回归算法，而是广泛用于含有隐变量的模型的求解问题。通过学习第1节，掌握EM算法E步和M步的求解过程；通过学习第2节，需要掌握在高斯混合模型中如何用EM算法估计参数。
学习目标：
0.导读视频。
1.通过例题9.1掌握EM算法E步和M步的求解过程。
2.了解EM算法求解如何用从最大化观测数据似然函数导出。
3.掌握高斯混合模型如何用EM算法估计参数。
在这里插入图片描述

例9.1 三硬币模型

假设有3枚硬币，分别记作A，B，C。这些硬币正面出现的概率分别是 $π ， p 和 q$ 。进行如下掷硬币试验：先掷硬币A，根据其结果选出硬币B或硬币C，正面选硬币B，反面选硬币C；然后掷选出的硬币，掷硬币的结果，出现正面记作1，出现反面记作0；独立地重复n次试验（这里，n=10），观测结果如下：
$1, 1, 0, 1, 0, 0, 1, 0, 1, 1$
假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率，即三硬币模型的参数，使得出现上面观测结果的概率最大。
虽然我们不知道模型具体的参数，但是我们可以看到一串序列，这串序列叫做：观测数据。那么不可观测数据也叫隐变量。例如第一个结果是1，也就是得到正面，但是这个正面我们不知道是因为A正面导致抛B得到的正面还是A背面导致抛C得到的正面。也就是这个例子中A的结果就是隐变量。如果我们假设A抛出后的结果为 $z$ ，最后的结果为 $y$ ，参数为 $\theta$ ，则根据似然估计可以写出最后丢出结果为正面 $y = 1$ 的概率：
$p(y=1|\theta)=p(z=1|\theta)p(y=1|z=1,\theta)+p(z=0|\theta)p(y=1|z=0,\theta)$
在本例中，做一次实验得到结果的概率可以写成：
$p(y|\theta)=\sum_zp(z|\theta)p(y|z,\theta)=\sum_z)p(y,z|\theta)\\ =\pi p^y(1-p)^{1-y}+(1-\pi)q^y(1-q)^{1-y}$
那么做N次实验的结果可以写成：
$\prod_{i=1}^Np(y_i|\theta)=\prod_{i=1}^N\left[\sum_zp(y_i,z|\theta)\right]\\ =\prod_{i=1}^N\left[\pi p^{y_i}(1-p)^{1-y_i}+(1-\pi)q^{y_i}(1-q)^{1-y_i}\right]$
这里要最大化概率，就可以加log，连乘变连加。然后 $p(y_i,z|\theta)$ 里面有两个要估计的参数，就要用EM算法来求。

EM算法

输入：观测变量数据Y，隐变量数据Z，联合分布 $P(Y,Z|\theta)$ ，条件分布 $P(Z|Y,\theta)$
输出：模型参数 $\theta$
（1）选择参数的初值 $\theta^{(0)}$ ，开始迭代；
（2）E步：记 $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i + 1$ 次迭代的E步，计算
$Q(\theta,\theta^{(i)})=E_Z[\log P(Y,Z|\theta)]|Y,\theta^{(i)}\\ =\sum_ZP(Z|Y,\theta^{(i)})\log P(Y,Z|\theta)\tag1$

（3）M步：求使 $Q(\theta,\theta^{(i)})$ 极大化的 $\theta$ ，确定第 $i + 1$ 次迭代的参数的估计值 $\theta^{(i+1)}$
$\theta^{(i)}=arg\underset{\theta}{\max}Q(\theta,\theta^{(i)})$
（4）重复第（2）步和第（3）步，直到收敛。
·式（1）的函数 $Q(\theta,\theta^{(i)})$ 是EM算法的核心，称为 $Q$ 函数（ $Q$ function）。
这里的核心思想是：EM算法分为E步和M步，E步是求期望，M步是求极大。

EM算法的导出

上节叙述了EM算法。为什么EM算法能近似实现对观测数据的极大似然估计呢？下面通过近似求解观测数据的对数似然函数的极大化问题来导出EM算法，由此可以清楚地看出EM算法的作用。
关于参数 $\theta$ 的似然函数可以写为：
$L(\theta)=\ln P(Y|\theta)=\ln\sum_ZP(Y,Z|\theta)=\ln\sum_ZP(Z|\theta)P(Y|Z,\theta)\tag2$
直接对这个似然函数求极大是很难的，里面包含有未观察到的数据 $Z$ ，因此换一个思路，我们希望找到的参数 $\theta$ 能使得似然函数 $L(\theta)$ 增加，也就是 $L(\theta)>L(\theta^{(i)})$ ，这样经过若干次迭代后，似然函数就出现了极值，因此考虑 $L(\theta)-L(\theta^{(i)})$ ，看其是否有下界。
把上面似然函数的公式2带入：
$L(\theta)-L(\theta^{(i)})=\ln\left(\sum_ZP(Z|\theta)P(Y|Z,\theta)\right)-\ln P(Y|\theta^{(i)})$
第一项乘一个除一个项：
$=\ln\left(\sum_ZP(Z|Y,\theta^{(i)})\cfrac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})}\right)-\ln P(Y|\theta^{(i)})$
加的这个项不是乱弄的，整个第一项可以满足Jensen不等式（Jensen inequality）：
$\log \sum_j\lambda_jyj\ge\sum_j\lambda_j\log y_j$
这里的 $\lambda$ 就是 $P(Z|Y,\theta^{(i)})$ ，而且jensen不等式满足 $\sum_j\lambda_j=1$ ，也就是 $\sum_ZP(Z|Y,\theta^{(i)})=1$
因此上式大于等于下面的式子：
$\ge \sum_ZP(Z|Y,\theta^{(i)})\ln\left(\cfrac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})}\right)-\ln P(Y|\theta^{(i)})$
后面这项乘一个值为1的项： $\sum_ZP(Z|Y,\theta^{(i)})=1$ ，上式等于：
$\sum_ZP(Z|Y,\theta^{(i)})\ln\left(\cfrac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})}\right)-\sum_ZP(Z|Y,\theta^{(i)})\ln P(Y|\theta^{(i)})\\ =\sum_ZP(Z|Y,\theta^{(i)})\left [\ln\left(\cfrac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})}\right)-\ln P(Y|\theta^{(i)})\right]\\ =\sum_ZP(Z|Y,\theta^{(i)})\ln\left(\cfrac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}\right)$
这个是下界，我们想让下界最大，可以看到求最大的时候分母 $P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})$ 是常数，可以忽略，分子按条件概率简写，然后可以写成：
$L(\theta)-L(\theta^{(i)})\ge \sum_ZP(Z|Y,\theta^{(i)})\ln P(Y,Z|\theta)$
令
$B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum_ZP(Z|Y,\theta^{(i)})\ln P(Y,Z|\theta)$
求B的最大的时候 $L(\theta^{(i)})$ 是常数，可以忽略，因此：
$\begin{aligned} \theta^{(i+1)} &=arg\underset{\theta}{\max}B(\theta,\theta^{(i)}) \\ &= arg\underset{\theta}{\max}\sum_ZP(Z|Y,\theta^{(i)})\ln P(Y,Z|\theta)\\ &= arg\underset{\theta}{\max}Q(\theta,\theta^{(i)}) \end{aligned}$

小结

EM算法通过迭代求解观测数据的对数似然函数的极大化，实现极大似然估计。
EM的极大似然估计中包含两个步骤：E步求期望和M步求极大。
为了每次都能够极大化L，需保证每个步骤中 $L(\theta)-L(\theta^{(i)})>0$ 。
通过找到 $L(\theta)-L(\theta^{(i)})$ 的下界，不断提高该下界即可。

oldmao_2000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
第9章EM算法及推广.9.1 导论

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。公式输入请参考：在线Latex公式前言任务简介：理解EM算法的思想和E步、M步的求解过程。详细说明：第9章介绍了EM算法，EM算法用于含有隐变量的概率模型的参数估计。EM算法不是一个具体的分类或回归算法，而是广泛用于含有隐变量的模型的求解问题。通过学习第1节，掌握EM算法E步和M步的求解过程；通过学习第2节，需要掌握在高斯混合模型中如何用EM算法估计参数。学习目标：0.导读视频。1.通过例题9.1掌握EM算法E步和M
复制链接

扫一扫