EM算法学习笔记

最新推荐文章于 2022-11-22 22:09:31 发布

DylanHOO

最新推荐文章于 2022-11-22 22:09:31 发布

阅读量356

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42560240/article/details/105744557

版权

EM介绍

最大期望算法（Expectation-Maximization algorithm, EM），是一类通过迭代进行极大似然估计的优化算法，用于对包含隐变量或缺失数据的概率模型进行参数估计，EM算法的标准计算框架由E步（Expectation-step）和M步（Maximization step）交替组成，算法的收敛性可以确保迭代至少逼近局部极大值。

EM算法

算法流程

输入：观测变量数据Y，隐变量数据Z，联合分布P(Y, Z|θ) ，条件分布P(Z|Y, θ);
输出：模型参数θ。

1）参数初始化：选择参数的处置 $θ^{(0)}$ , 开始迭代。需要注意的是EM算法对初值选择是敏感的。

2）E步：记 $θ^{(i)}$ 为第 $i$ 次迭代参数 $θ$ 的估计值，在第 $i + 1$ 次迭代的E步，计算 $Q$ 函数， $Q$ 函数的定义如下：

完全数据的对数似然函数 $l o g P (Y, Z ∣ θ)$ 关于在给定观测数据 $Y$ 和当前参数 $θ^{(i)}$ 下对未观测数据 $Z$ 的条件概率分布 $P(Z|Y, θ^{(i)})$ 的期望称为 $Q$ 函数，即

$Q(θ, θ^{(i)}) = E_Z[logP(Y, Z|θ) | Y, θ^{(i)}]$ $\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \sum_ZlogP(Y, Z|θ)P(Z|Y, θ^{(i)})$ 其中Z是未观测数据， $Q(θ, θ^{(i)})$ 的第一个变元表示要极大化的参数，第2个变元表示参数的当前估计值。每次迭代实际在求 $Q$ 函数及其极大。
3）M步：求使 $Q(θ, θ^{(i)})$ 极大化的 $θ$ , 确定第 $i + 1$ 次迭代的参数的估计 $θ^{(i+1)}$ ， $θ^{(i+1)} = arg\max_θQ(θ, θ^{(i)})$
完成迭代 $θ^{(i)}→θ^{(i+1)}$ 。
4）重复第2)步和第3)步，直至收敛。一般迭代停止的条件是设定较小的正数 $ε_1, ε_2$ 满足
$θ^{(i+1)} - θ^{(i)} ﹤ ε_1‖\ \ 或\ \ ‖Q(θ^{(i+1)}, θ^{(i)}) - Q(θ^{(i)}, θ^{(i)}) ‖﹤ε_2$

算法理解

下图给出EM算法的直观解释，图中上方曲线为 $L (θ)$ , 下方曲线为 $L (θ)$ 的下界。首先我们初始化一个 $θ_1$ ，根据它求似然函数一个紧的下界，也就是图中第一条黑短线，黑短线上的值虽然都小于似然函数的值，但至少有一点可以满足等号（所以称为紧下界），最大化小黑短线我们就hit到至少与似然函数刚好相等的位置，对应的横坐标就是我们的新的 $θ_2$ ，如此进行，只要保证随着 $θ$ 的更新，每次最大化的小黑短线值都比上次的更大，那么算法收敛，最后就能最大化到似然函数的极大值处。
在这里插入图片描述

EM算法在无监督学习中的应用

有时训练数据只有输入没有对应的输出 ${(x_1, ·), (x_2, ·), …, (x_N, ·)}$ ，从这样的数据学习模型成为无监督学习问题。EM算法可以用于生成模型的无监督学习。生成模型由联合概率分布 $P (X, Y)$ 表示，可以认为无监督学习训练数据是联合概率分布产生的数据， $X$ 为观测数据， $Y$ 为未观测数据。

EM算法在高斯混合模型学习中的应用

待补充

参考

李航统计学习方法
EM算法详细推导和讲解 https://www.cnblogs.com/bigmoyan/p/4550375.html

DylanHOO

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM算法学习笔记

EM介绍最大期望算法（Expectation-Maximization algorithm, EM），是一类通过迭代进行极大似然估计的优化算法，用于对包含隐变量或缺失数据的概率模型进行参数估计，EM算法的标准计算框架由E步（Expectation-step）和M步（Maximization step）交替组成，算法的收敛性可以确保迭代至少逼近局部极大值。EM算法算法流程输入：观测变量数据...
复制链接

扫一扫