EM算法推导及其收敛性证明

最新推荐文章于 2022-09-06 14:16:40 发布

VIP文章 JN_rainbow

最新推荐文章于 2022-09-06 14:16:40 发布

阅读量2.5k

点赞数 1

分类专栏：机器学习文章标签：机器学习 EM算法人工智能

本文链接：https://blog.csdn.net/JN_rainbow/article/details/84337504

版权

EM算法简介

EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代分为两步：E步，求期望；M步，求极大。

概率模型有时既含有观测变量，又含有隐变量或潜在变量，如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计或贝叶斯法估计模型参数。但是当模型含有隐变量时，就不能简单地使用这种估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法。

EM算法

观测数据表示为 $Y=(Y_1, Y_2\dots Y_n)^T$ ，未观测数据表示为 $Z=(Z_1, Z_2\dots Z_n)^T$ ，则观测数据的似然函数为
$P(Y|\theta) = \sum_ZP(Z|\theta)P(Y|Z,\theta)\tag{1}$
考虑求模型参数 $\theta$ 的对数极大似然估计，即
$\hat{\theta} = arg \max_{\theta} \log P(Y|\theta)\tag{2}$
该问题没有解析解，只有通过迭代的方法求解。

EM算法首先选取参数的初值，记作 $\theta^{(0)}$ ，然后通过如下步骤迭代计算参数的估计值，直至收敛。第 $i$ 次迭代参数的估计值为 $\theta^{(i)}$ 。EM算法的第 $i + 1$ 次迭代如下：

E步： 计算在模型参数 $\theta^{(i)}$ 下观测数据 $y_j$ 的概率。

M步： 计算模型参数的新估计值。

一般地，用 $Y$ 表示观测随机变量的数据， $Z$ 表示隐随机变量的数据。 $Y$ 和 $Z$ 连在一起称为完全数据，观测数据 $Y$ 又称为不完全数据。假设给定观测数据 $Y$ ，其概率分布是 $P(Y|\theta)$ ，其中 $\theta$ 是需要估计的模型参数；不完全数据 $Y$ 的似然函数为 $P(Y|\theta)$ ，对数似然函数 $L(\theta)=\log P(Y|\theta)$ ；假设 $Y$ 和 $Z$ 的联合概率分布是 $P(Y,Z|\theta)$ ，那么完全数据的对数似然函数为 $\log P(Y,Z|\theta)$ 。

EM算法通过迭代求 $L(\theta)=\log P(Y|\theta)$ 的极大似然估计，每次迭代包含两步：E步，求期望；M步，求极大化。

算法1：(EM算法)

输入：观测变量数据 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y,Z|\theta)$ ，条件分布 $P(Z|Y,\theta)$ ；

输出：模型参数 $\theta$

(1)选择参数的初值 $\theta^{(0)}$ ，开始迭代；

(2)E步：记 $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i + 1$ 次迭代的E步，计算
$Q(\theta, \theta^{(i)}) = E_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}] = \sum_Z\Big(\log P(Y,Z|\theta)\Big)P(Z|Y,\theta^{(i)}) \tag{3}$
这里的 $P(Z|Y,\theta^{(i)})$ 是在给定观测数据 $Y$ 和当前的参数估计 $\theta^{(i)}$ 下隐变量数据 $Z$ 的条件概率分布；

(3)M步：求使 $Q(\theta, \theta^{(i)})$ 极大化的 $\theta$ ，确定第 $i + 1$ 次迭代的参数估计值为 $\theta^{(i+1)}$
$\theta^{(i+1)} = arg \max_{\theta} Q(\theta, \theta^{(i)}) \tag{4}$

最低0.47元/天解锁文章

JN_rainbow

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
EM算法推导及其收敛性证明

EM算法简介EM算法(Expectation maximization algorithm，期望极大算法)是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代分为两步：E步，求期望；M步，求极大。概率模型有时既含有观测变量，又含有隐变量或潜在变量，如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计或贝叶斯法估计模型参数。但是当模型...
复制链接

扫一扫