EM算法详细推导（启发性）

最新推荐文章于 2020-03-01 13:25:10 发布

盐味橙汁

最新推荐文章于 2020-03-01 13:25:10 发布

阅读量1k

点赞数 4

分类专栏：学习笔记机器学习文章标签： EM算法高斯混合模型似然函数最大化

本文链接：https://blog.csdn.net/jasonzhoujx/article/details/89965694

版权

EM算法

期望最大化算法，是寻找具有潜在变量地概率模型地最大似然解的一种通用的方法。下面介绍一般形式的EM算法的推导过程。

我们把所有的观测变量联合起来记作 $X=\{x_1, x_2, ..., x_N\}$ ，将所有的隐含变量记作 $Z=\{z_1, z_2, x_N\}$ 。这里只考虑 $Z$ 的状态是离散值的情况，我们假设每个样本 $x_n$ 点由对应的隐含变量 $z_n$ 决定。于是对于生成式模型，我们希望模型的参数集 $\theta$ 能够使得 $p(X|\theta)$ 的概率达到最大。因此很容易想到最大化模型的似然函数就能解出最优的参数集 $\theta$ 。

我们通过计算 $(X, Z)$ 的联合概率密度分布计算 $X$ 的边缘概率密度：
$p(X|\theta) = \sum _Z p(X,Z|\theta) \tag{1}$
对上式使用极大似然法求解参数 $\theta$ 的最优解过程中，需要对左右同时取对数，观察右边部分 $\sum _Z p(X, Z|\theta)$ ，我们会发现对潜在变量的求和出现在了对数运算内部，这阻止了对数运算直接作用于联合概率分布，使得最大似然解的形式更加复杂。

问题的转化

后面的介绍中，我们称 ${X, Z\}$ 为完整的数据集，并且我们称实际观测的数据集 $X$ 为不完整的，完整数据集的对数似然函数为 $\ p(X,Z|\theta)$ ，我们假定这个完整数据集的对数似然函数进行最大化是很容易的。

下面介绍将最大化 $p(X|\theta)$ 的目标转化成最优化 $p(X,Z|\theta)$ 的过程。我们引入一个定义在潜在变量上的分布 $q (Z)$ ，对于任意的 $q (Z)$ ，下面的分解式成立：
$ln\ p(X|\theta)=\mathcal{L}(q,\theta)+KL(q||p)\tag{2}$
其中，我们定义了
$\mathcal{L}(q, \theta) = \sum _Z q(Z)ln\{\frac {p(X,Z|\theta)}{q(Z)}\} \\ KL(q||p) = - \sum _Z q(Z) ln \{\frac{p(Z|X,\theta)}{q(Z)}\} \tag{3}$

最低0.47元/天解锁文章

盐味橙汁

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
EM算法详细推导（启发性）

EM算法期望最大化算法，是寻找具有潜在变量地概率模型地最大似然解的一种通用的方法。下面介绍一般形式的EM算法的推导过程。我们把所有的观测变量联合起来记作X={x1,x2,...,xN}X=\{x_1, x_2, ..., x_N\}X={x1,x2,...,xN}，将所有的隐含变量记作Z={z1,z2,xN}Z=\{z_1, z_2, x_N\}Z={z1,z2,xN}。这里只考虑...
复制链接

扫一扫