EM算法推导

最新推荐文章于 2021-12-13 09:58:29 发布

fanf_zhang

最新推荐文章于 2021-12-13 09:58:29 发布

阅读量2k

点赞数

分类专栏：机器学习/数据挖掘文章标签： EM算法机器学习

本文链接：https://blog.csdn.net/flyfish5/article/details/49978239

版权

机器学习/数据挖掘专栏收录该内容

13 篇文章 0 订阅

订阅专栏

忘了用了几天的时间来学习EM算法、GMM，学习老师的语音识别程序，先看老师的PPT（简单介绍EM算法和GMM，MFCC的步骤），源代码（刚开始看的时候完全不懂），然后在网上搜索了MFCC方法，通过博客和别人的文档学习GMM，EM算法，又去看了PRLM这本书的第九章（关于GMM和EM的），现在感觉还是似懂非懂，主要是推到过程不清楚加上没有程序实现。可能是我的学习方法有问题。可以和同学多交流，向别人请教下学习方法。也希望看到这篇文章的童鞋在学习方法上不吝赐教。
周日下午，抓住周末的尾巴，知识只有总结了才能更好的理解。

似然函数

假设样本集 $\mathcal D$ 中有 $n$ 个样本： $x_1,x_2, ...x_n$ 。其中每个样本都是独立的根据已知形式的概率密度函数 $p(x|\theta)$ 抽取得到的。因此下式成立：

p (D | θ) = \prod k = 1 n p (x k | θ)

$p(\mathcal D|\theta)=\prod_{k=1}^n p(x_k|\theta)$
若

D $\mathcal D$ 已知所以可以把

p(D|θ) $p(\mathcal D|\theta)$ 看成是参数向量

θ $\theta$ 的函数，被称为样本集

D $\mathcal D$ 下的似然函数。
参数向量

θ $\theta$ 的最大似然估计，就是使

p(x|θ) $p(x|\theta)$ 达到最大值的那个参数向量

θ^ $\hat \theta$ 。也就是说，参数向量

θ $\theta$ 的最大似然估计就是最符合已有的观测样本集的那一个[1]。
为了方便分析，通常情况下，总是使用对数似然函数。

l (θ) = l n p (D | θ)

$l(\theta)=ln p(\mathcal D|\theta)$

l (θ) = \sum k = 1 n l n p (x k | θ)

$l(\theta)=\sum_{k=1}^nln p(x_k|\theta)$
这个式子会在EM推到过程中用到。

Jensen不等式

没有仔细学习，简单说就是，如果函数 $f(x)$ 是凸函数，那么有 $E[f(X)] \ge f([E(X)])$ 。如果f是严格凸函数，那么当且仅当 $x=c$ 即x是常量时，等号成立。
如果是凹函数，上式变为小于等于。

EM算法

解决带有隐含变量的模型的最大似然问题。可以用于聚类，参数估计等

1

通过最大似然估计来得到模型中的参数 $\theta$ ，目标函数就是上面的对数似然函数。 $l(\theta)=\sum_{i=1}^nln p(x_i;\theta)$
对于有隐含变量的模型来说（隐含变量可以是丢失的特征或样本的类别），对数似然函数的形式：

l (θ) = \sum i = 1 n l n p (x i, z i; θ)

$l(\theta)=\sum_{i=1}^nln p(x_i,z_i;\theta)$
隐含变量

zk $z_k$ 对我们来说完全是未知的，假设

z $z$ 满足某种分布

Qi(z) $Q_i(z)$ ,则有

∑Qi(z)=1 $\sum Q_i(z) =1$ 。
上面的对数似然函数就可以写成：

l (θ) = \sum i = 1 n l n \sum z p (x i, z i; θ)

$l(\theta)=\sum_{i=1}^nln \sum_z p(x_i,z_i;\theta)$

2

要最大化上面的 $l(\theta)$ 显然比较困难。这时就要用到Jensen不等式了。
可以把 $l(\theta)$ 写成

l (θ) = \sum i = 1 n l n \sum z Q i (z i) p ( x i , z i ; θ ) Q i ( z i )

$l(\theta)=\sum_{i=1}^nln \sum_z Q_i(z_i) \frac {p(x_i,z_i;\theta)}{Q_i(z_i)}$
上式最右边的分式

p(xi,zi;θ)Qi(zi) $\frac {p(x_i,z_i;\theta)}{Q_i(z_i)}$ 是Jensen不等式中的随机变量X，把它看作

zi $z_i$ 的函数，

Qi(zi) $Q_i(z_i)$ 为概率密度，那么

∑zQi(zi)p(xi,zi;θ)Qi(zi) $\sum_z Q_i(z_i) \frac {p(x_i,z_i;\theta)}{Q_i(z_i)}$ 就是Jensen不等式中的

E(X) $E(X)$ 。
因为

ln(x) $ln(x)$ 为凹函数，所以有

l (θ) = \sum i = 1 n l n \sum z Q i (z i) p ( x i , z i ; θ ) Q i ( z i )

$l(\theta)=\sum_{i=1}^nln \sum_z Q_i(z_i) \frac {p(x_i,z_i;\theta)}{Q_i(z_i)}$

\geq \sum i = 1 n \sum z l n Q i (z i) p ( x i , z i ; θ ) Q i ( z i ) (1)

$\ge \sum_{i=1} ^n \sum_z ln Q_i(z_i) \frac {p(x_i,z_i;\theta)}{Q_i(z_i)} (1)$
这样我们就可以不断增大上面（1）式，再使等号成立，从而获得

l(θ) $l(\theta)$ 的最大值。
最大化（1）式的过程为 maximum(M step)，更新参数

θ $\theta$ 。
使等号成立的过程为E step，更新z的分布Q。

3

来看一下，Jensen不等式等号成立时，Q的值。
等号成立时，X为常量，也就是 $\frac {p(x_i,z_i;\theta)}{Q_i(z_i)} =c$ 同时又知道 $\sum_z Q_i(z) =1$ 所以，就可以使 ${Q_i(z_i)}=\frac {p(x_i,z_i;\theta)}{\sum_zp(x_i,z_i;\theta)}=\frac {p(x_i,z_i;\theta) }{p(x_i;\theta)}=p(z_i|x_i;\theta)$ 也就是隐含变量的后验概率。