GMM高斯混合模型学习笔记（EM算法求解）

最新推荐文章于 2020-08-19 16:13:35 发布

weixin_33957648

最新推荐文章于 2020-08-19 16:13:35 发布

阅读量99

点赞数

文章标签：数据结构与算法人工智能

原文链接：https://yq.aliyun.com/articles/366293

版权

提出混合模型主要是为了能更好地近似一些较复杂的样本分布，通过不断添加component个数，能够随意地逼近不论什么连续的概率分布。所以我们觉得不论什么样本分布都能够用混合模型来建模。由于高斯函数具有一些非常有用的性质。所以高斯混合模型被广泛地使用。

GMM与kmeans相似，也是属于clustering，不同的是。kmeans是把每一个样本点聚到当中一个cluster，而GMM是给出这些样本点到每一个cluster的概率。每一个component就是一个聚类中心。

GMM(Gaussian Mixture Model)高斯混合模型，由K个不同的Gaussian线性组合而成，每一个Gaussian是混合模型的一个component，GMM的概率密度函数例如以下：

p (x) = \sum k = 1 K p (k) (x | k) = \sum k = 1 K π k  (x | μ k, \sum k)

    依据上式。从GMM中生成一个样本点x分两步：
    1，从K个component中随机的选择一个
    2。从该component中选择一个点

參数说明：N个样本点。K个component，μk,∑k 是第k个component的均值和协方差矩阵，是模型參数，是须要预计的。

πk是mixing coefficient，表示第k个component被选中的概率。πk=1N∑Nn=1znk，也是模型參数。须要预计。N是高斯（正态）分布。

对一个样本集建立高斯混合模型的过程，就是依据已知样本集X反推高斯混合模型的參数(μ,∑,π)，这是一个參数预计问题。首先想到用最大似然的方法求解，也就是，要确定參数π,μ,∑使得它所确定的概率分布生成这些样本点的概率最大。这个概率也就是似然函数，例如以下：

p (x) = \prod n = 1 N p (x i)

而一般对于单个样本点其概率较小。多个相乘后更小，easy造成浮点数下溢，所以通常是对似然函数求log，变成加和形式：

\sum i = 1 N l n p (x i)

这个叫做log似然函数，目标是要最大化它。用log似然函数对參数分别求偏导。令偏导等于0，可求解得參数。
然而。GMM的log似然函数是例如以下形式：

l n p (X) = \sum i = 1 N l n [\sum k = 1 K π k  (x i | μ k, \sum k)]

能够看到对数中有求和，直接求导求解将导致一系列复杂的运算，故考虑使用EM算法。（详细思路见上一篇： EM算法学习笔记）

考虑GMM生成一个样本点的过程，这里对每一个xi引入隐变量z，z是一个K维向量，如果生成xi时选择了第k个component，则zk=1，其它元素都为0。∑Kk=1zk=1.
如果z是已知的。则样本集变成了{X,Z}，要求解的似然函数变成了：

p (X, Z | μ, \sum, π) = \prod n = 1 N \prod k = 1 K π z n k k  (x n | μ k, \sum k) z n k

log似然函数为：

l n p (X, Z | μ, \sum, π) = \sum n = 1 N \sum k = 1 K z n k [l n π k + l n  (x n | μ k, \sum k)] . (*)

能够看到，这次ln直接对Gaussian作用，求和在ln外面，所以能够直接求最大似然解了。

1,初始化一组模型參数π,μ,∑
2,E-step

然而。其实z是不知道的。我们仅仅是如果z已知。

而z的值是通过后验概率观測。所以这里考虑用z值的期望在上述似然函数中取代z。
对于一个样本点x：

p (z) = \prod k = 1 K π z k k

p (x | z k = 1) =  (x | μ k, \sum k)

p (x | z) = \prod k = 1 K  (x | μ k, \sum k) z k

p (x) = \sum z p (z) p (x | z) = \sum k = 1 K π k  (x | μ k, \sum k)

后验概率（固定

μ,∑,π ）：

p (z | x, μ, \sum, π) = p ( x | z ) p ( z ) p ( x ) 正 比 于 \prod n = 1 N \prod k = 1 K [π k  (x n | μ k, \sum k)] z n k

由于{

zn }之间是相互独立的。
计算z期望

γ(znk) （z向量仅仅有一个值取1，其余为0）：

γ (z n k) = E [z n k] = 0 * p (z n k = 0 | x n) + 1 * p (z n k = 1 | x n) = p (z n k = 1 | x n) = p ( z n k = 1 ) p ( x n | z n k = 1 ) p ( x n ) = π k  ( x | μ k , \sum k ) \sum K j = 1 π j  ( x | μ j , \sum j ) .

将z值用期望取代。则待求解的log似然函数(*)式变为：

E z [l n p (X, Z | μ, \sum, π)] = \sum n = 1 N \sum k = 1 K γ (z n k) [l n π k + l n  (x n | μ k, \sum k)] .

3,M-step

如今能够最大化似然函数求解參数了，首先对μ求偏导，令偏导等于0。可得：

\sum n = 1 N \sum k = 1 K γ (z n k) \sum k (x n - μ k) = 0

μ k = 1 N k \sum n = 1 N γ (z n k) x n ， 其 中 N k = \sum n = 1 N γ (z n k) .

Nk 是“the effective number of points assigned to cluster k”.
再对

∑k 求偏导，令偏导等于0，可得：

\sum k = 1 N k \sum n = 1 N γ (z n k) (x n - μ k) (x n - μ k) T

接下来还需求解π。注意到π需满足∑Kk=1πk=1。所以这是一个带等式约束的最大值问题。使用拉格朗日乘数法。
构造拉格朗日函数：

L = l n p (X | π, μ, \sum) + λ (\sum k = 1 K π k - 1) .

对

π 求导，令导数为0：

\sum n = 1 N  ( x | μ k , \sum k ) \sum K j = 1 π j  ( x | μ j , \sum j ) + λ = 0

两边同乘

πk 得：

\sum n = 1 N γ (z n k) + λ π k = 0

N k + λ π k = 0

两边对k求和：

\sum k = 1 K N k + \sum k = 1 K λ π k = 0

N + λ = 0

可得：

λ=−N
代入可得：

πk=NkN.

4,检查是否收敛
反复E-step和M-step两步。直到收敛，就可以求得一个局部最优解。

GMM的建模步骤例如以下图（k=2,高斯分布是蓝色和红色圈）：
gmm

主要參考资料：
《Pattern Recognization and Machine Learning》
帮助理解：
http://blog.pluskid.org/?p=39

本文转自mfrbuaa博客园博客，原文链接：http://www.cnblogs.com/mfrbuaa/p/5111355.html，如需转载请自行联系原作者

weixin_33957648

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GMM高斯混合模型学习笔记（EM算法求解）

提出混合模型主要是为了能更好地近似一些较复杂的样本分布，通过不断添加component个数，能够随意地逼近不论什么连续的概率分布。所以我们觉得不论什么样本分布都能够用混合模型来建模。由于高斯函数具有一些非常有用的性质。所以高斯混合模型被广泛地使用。GMM与kmeans相似，也是属于clustering，不同的是。kmeans是把每一个样本...
复制链接

扫一扫

weixin_33957648 CSDN认证博客专家 CSDN认证企业博客

码龄8年

177: 原创

-: 周排名

68万+: 总排名

136万+: 访问

: 等级

7779: 积分

7231: 粉丝

251: 获赞

18: 评论

1444: 收藏

私信

关注

热门文章

最新评论

老顽固在13英寸苹果笔记本MacBook Air上开发C#.NET程序的感受浅谈
includebd: 才几百G的学习资料？太拉了，我几个T呢
原型链是什么？关于原型链中constructor、prototype及__proto__之间关系的认识
sjxxl: 底下的总结说错了，fa.prototype.fname='newfa'。得到的结果是ch.fname ===fa.prototype.fname。而且ch._proto就是指向fa.prototype的地址
C#交换两个变量值的多种写法
安逸553: 用ref的那个最后面的x应该换成temp吧
纠结应该先学Python还是Java？看完就有数了
卓越小Y: 不需要选择，有时间学完c就学java。编程就是需要用到什么就学什么。python就是精简版JAVA，看几天就会用了。然后你就有三门语言在身了。我只是爱好，时间不多，之前贪容易学python结果很多会用，但不懂逻辑，半桶水状态。现在在学java，然后准备再回去补python。我都感觉自己很奇怪。学java，但工作应用写脚本都用python写。毕竟java在基础阶段。不过学了java的一些思想，现在写python省事好多。我的现在修炼路程是java，sql，重学python，java安卓端，js。
纠结应该先学Python还是Java？看完就有数了
qq_45833336: 您好，我是通信工程专业的学生，就大一上学期学校上的是c语言这一课，我还想自学编程，哪个语言比较好呢？？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。