EM算法简介

最新推荐文章于 2022-04-04 01:01:34 发布

Fang Suk

最新推荐文章于 2022-04-04 01:01:34 发布

阅读量312

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/MrR1ght/article/details/116804359

版权

EM算法极大似然估计隐变量迭代概率模型

关键词由CSDN通过智能技术生成

自然语言处理专栏收录该内容

20 篇文章 3 订阅

订阅专栏

EM算法简介

1 使用场景

EM算法（expectation maximization algorithm）用于含有隐变量概率模型参数的极大似然估计。在不含有隐变量（未观测变量）的概率模型参数估计，最常用的就是极大似然估计。在含有未观测变量时，一般使用EM算法。

2 目标

EM算法还是要极大化观测数据（不完全数据）的对数似然函数。假设有m个观测样本 $y_1,z_1),(y_2,z_2),...,(y_m,z_m)$ Y是观测变量，Z是隐变量。则观测数据的对数似然为：

$LL(\theta)=\sum_{i=1}^m\mathop{log}p(y_i|\theta)=\sum_{i=1}^mlog\sum_Zp(y_i,z|\theta)$
变换用到联合概率分布的边缘分布。我们的目标也就是求解使得 $LL(\theta)$ 最大 $\theta$ 的值：
$\tilde{\theta}=\mathop{argmax}\limits_\theta LL(\theta)$

3 迭代求解

3.1 算法导出

如果已知 $\theta$ ，那么可以直接估计 $z$ 的分布。或者

如果已知 $z$ ，那么问题就退化成不包含隐变量的概率模型参数估计，可以直接使用极大似然估计。

但是由于 $\theta$ 和 $z$ 都不知道。那么能否用一种迭代的思想去求解，先给出 $\theta$ 的值，然后计算z的分布，在根据z的分布，去得到 $\theta^{t+1}$ 。并且在迭代的过程中要不断确保 $LL(\theta)$ 不断增大。

1.4算法导出
$LL(\theta)=\sum_{i=1}^mlog(p(y_i|\theta))=\sum_{i=1}^mlog\sum_Zp(y_i,z|\theta)$

$=\sum_{i=1}^mlog\sum_ZQ_i(z)\frac{p(y_i,z|\theta)}{Q_i(z)}\\$

其中 $Q_i(z)>0,\sum Q_i(z)=1$ 。由jensen不等式可得到 $LL(\theta)$ 的下界函数。
$\ge\sum_{i=1}^m\sum_zQ_i(z)log\frac{p(y_i,z|\theta)}{Q_i(z)}$
jensen不等式等号成立的条件是 $E (x) = 1$ 。即 $\frac{p(y_i,z|\theta)}{Q_i(z)}=c$ 。并且由于 $\sum Q_i(z)=1$ 可推出
$\frac{p(y_i,z|\theta)}{Q_i(z)}=c\\p(y_i,z|\theta)=Q_i(z)c\\\sum_zp(y_i,z|\theta)=\sum_zQ_i(z)c=c\\ Q_i(z)=\frac{p(y_i,z|\theta)}{\sum_zp(y_i,z|\theta)}=\frac{p(y_i,z|\theta)}{p(y_i|\theta)}=p(z|y_i,\theta)$
即 $Q_i(z)$ 就是给定 $\theta$ 和y时，z的条件概率分布。如果令
$B(\theta|\theta^t)=\sum_{i=1}^m\sum_Zp(z|y_i,\theta^t)log\frac{p(y_i,z|\theta)}{p(z|y_i,\theta^t)}$
则有以下关系：
$LL(\theta|\theta^t)\ge\sum_{i=1}^m\sum_Zp(z|y_i,\theta^t)log\frac{p(y_i,z|\theta)}{p(z|y_i,\theta^t)}=B(\theta|\theta^t)$
$B(\theta|\theta^t)$ 是 $LL(\theta|\theta^t)$ 的下界函数。并且在 $\theta=\theta^t$ 时等号成立。

在迭代中不断极大化下界函数 $B(\theta|\theta^t)$ 达到使对数似然 $LL(\theta|\theta^t)$ 不断增大的目的。当 $\theta^t$ 给定时， $p(y_i,z|\theta^t)$ 是常数，可忽略。令 $Q(\theta|\theta^t)$ :
$Q(\theta|\theta^t)=\sum_{i=1}^m\sum_Zp(z|y_i,\theta^t)logp(y_i,z|\theta)$
所以只需在每轮迭代极大化Q函数即可。

3.2 EM算法过程

给定初始值 $\theta^0$
E步：根据当前参数值 $\theta^t$ ，计算在给定观测数据Y和当前估计参数 $\theta^t$ 下，隐变量z的条件概率分布 $p(z|Y,\theta^t)$ ，并计算完全数据在给定观测数据Y和当前估计参数 $\theta^t$ 下，对隐变量z条件概率分布的期望 $Q(\theta|\theta^t)$ 。
M步：极大化 $Q(\theta|\theta^t)$ 得到t+1次迭代的参数估计值 $\theta^{t+1}$
重复2，3步，直到收敛。

4 收敛性证明

4.1 单调性证明

$LL(\theta|\theta^t)$ 在每次迭代的值时单调递增的

证明：

设有f(x)，g(x)，其中g(x)是f(x)的下界函数。即 $f(x)\ge g(x)$ 。如果有 $f(x_1)=g(x_1),g(x_2)>g(x_1)$ ，那么 $f(x_2)>f(x_1)$ 。

证：
$f(x_2)\ge g(x_2)\ge g(x_1)=f(x_1)$
在EM算法的每轮迭代中。 $B(\theta|\theta^t)$ 是 $LL(\theta|\theta^t)$ 的下界函数，并且有 $B(\theta^t|\theta^t)=LL(\theta^t|\theta^t),B(\theta^{t+1}|\theta^t)\ge B(\theta^t|\theta^t)$ 。所以有 $LL(\theta^{t+1}|\theta^t)\ge LL(\theta^t|\theta^t)$ ，即在每一轮迭代中 $LL(\theta|\theta^t)$ 是单调递增的。

4.2 收敛性

（1）如果 $P(Y|\theta)$ 有上界，则收敛。

（2）

Fang Suk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM算法简介

EM算法简介1 使用场景EM算法（expectation maximization algorithm）用于含有隐变量概率模型参数的极大似然估计。在不含有隐变量（未观测变量）的概率模型参数估计，最常用的就是极大似然估计。在含有未观测变量时，一般使用EM算法。2 目标EM算法还是要极大化观测数据（不完全数据）的对数似然函数。假设有m个观测样本(y1,z1),(y2,z2),...,(ym,zm)(y_1,z_1),(y_2,z_2),...,(y_m,z_m)(y1,z1),(y2,z2),.
复制链接

扫一扫

专栏目录