机器学习－GMM心得体会

最新推荐文章于 2024-05-10 17:24:31 发布

极地语音工作室

最新推荐文章于 2024-05-10 17:24:31 发布

阅读量4.6k

点赞数 2

分类专栏：其它应用文章标签： MATLAB 机器学习 GMM

其它应用专栏收录该内容

19 篇文章 0 订阅

订阅专栏

这次又看了两天的GMM，之前看过一次，没看的太明白。这次在前段时间补了一阵子概率论外加昨天学习状态好，把GMM看的明白透彻了。本想用python实现下，却发现，那matlab代码让我看得着实头疼，还得在python和matlab之间寻找各种功能相似的代码，郁闷之下，还是没有完成这个程序。各种数学公式，python中找那些函数，搞的我异常的烦躁。
不浪费时间了，我其实就是想理解清楚这个算法嘛，干嘛要死扣呢？不吐槽了，说下自己对GMM的认识。

GMM 英文全称：Gaussian Mixture Model 中文:高斯混合模型。既然叫高斯混合模型，自然是由高斯模型混合而来。高斯模型，就是我们平时的正态分布，又名高斯分布。友情提醒：要学习理解高斯混合模型，需要中心极限定理和极大似然估计这两个概率论背景知识。高斯混合模型，也主要是用于聚类。举这样一个例子：假设现在有两个不同的高斯分布，我们用这样的两个分布随机的生成任意多个点，那么如何将某个点判定为属于哪一个分布?这就相当于一个聚类问题，如何将一个点分配到他应该属于的那个类中。
我们知道kmeans也可以用于聚类，那么GMM和kmeans的区别在哪里呢？在kmeans中，我们直接就得到了一个数据点，应该属于哪一个类。而在GMM中，我们得到的结果只是某个点属于某个类的可能性大小。举个例子，比如存在这样一种情况：两个高斯分布图像存在重叠的部分，那么处于交叉部分的数据点A，就只能是有一个属于某一个高斯分布的概率。如何决定A是属于哪一个高斯分布，将有你来作决定，而不是由机器决定。假如有这样一个根据症状测试病人患什么病的机器，如果机器测出来患A病的可能性是0.55,患B病的可能性是0.45.这两个概率就很接近，这时候不能草率的说病人就是患A病，必须由医生再次诊断。
GMM的学习结果：就是某个数据点属于某个类的概率。
每个GMM看作有K个高斯分布组成，那么这些高斯分布的线性组合就是GMM的概率密度函数：

其中 πk表示第k个高斯分布被选中的概率。显然我们要作的就是确定 pi(k),mu(k),sigma(k) (ps:主机本身没有Latex功能，所以就无法直接打希腊字母，郁闷的很，将就着看吧)这些参数的值.显然利用概率论中的极大似然估计来对参数进行估计。极大似然估计的条件就是在分布函数已知的情况下，借助总体的一个样本对参数进行估计。我们这里已知概率密度函数了，利用一组样本值，X=(x1,x2,...xn)，得到事件X发生的概率为：

取对数后可得

接下来我们只要将这个函数最大化（通常的做法是求导并令导数等于零，然后解方程），亦即找到这样一组参数值，它让似然函数取得最大值，我们就认为这是最合适的参数，这样就完成了参数估计的过程。由于这里对数里面又有累加的过程，我们无法直接用求导的方式求得pi(k),mu(k),sigma(k)。我们采取迭代的方式，首先假设pi(k),mu(k),sigma(k)已知,计算数据点i由第k个高斯分布生成的概率gamma(i,k),然后在利用算出来gamma(i,k), 计算pi(k),mu(k),sigma(k)。循环上述步骤，直至GMM的似然函数的值收敛。

上面部分写的混乱了点，还是上公式吧。上述过程总体而言分成3步：

第一步：估计每个数据点属于每个类k的概率，假设mu,pi,sigma这些都是已知的：

第二步：对于每一个聚类k,我们已知它的分布函数，就利用r(i,k)来计算对应的mu(k),pi(k),sigma(k):

第三步：重复迭代上面两步，将上面计算出的pi,mu,sigma带入GMM的极大似然函数中，当似然函数的两次结果小于起初设定的阈值，即似然函数收敛后，运算结束。

极地语音工作室

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
机器学习－GMM心得体会

这次又看了两天的GMM，之前看过一次，没看的太明白。这次在前段时间补了一阵子概率论外加昨天学习状态好，把GMM看的明白透彻了。本想用python实现下，却发现，那matlab代码让我看得着实头疼，还得在python和matlab之间寻找各种功能相似的代码，郁闷之下，还是没有完成这个程序。各种数学公式，python中找那些函数，搞的我异常的烦躁。不浪费时间了，我其实就是想理解清楚这个算法嘛，干嘛
复制链接

扫一扫

专栏目录