参考:李航《统计学习方法》
http://blog.csdn.net/xmu_jupiter/article/details/50889023
https://www.cnblogs.com/mindpuzzle/archive/2013/04/24/3036447.html
https://blog.csdn.net/jinping_shi/article/details/59613054
GMM是用来做非监督学习的聚类的。下图可以直观知道什么是聚类:
一、GMM模型定义
GMM应用广泛,在许多情况下,EM算法是学习GMM中参数的有效方法。
一般混合模型可以由任意概率分布密度代替上面的高斯分布密度,只要K足够大,这个混合模型就会变得足够复杂,就可以用来逼近任意连续的概率密度分布。这里我们介绍最常用的高斯混合模型(高斯函数具有良好的计算性能)。
GMM的各个高斯分量的系数之和必须为1:
Answer:GMM本质上是一个概率密度函数,根据概率密度函数的性质,其在作用域内的积分为1。每一个高斯分量的概率密度函数的积分必然是1,若使GMM整体的概率密度积分为1,则对每个高斯分量赋予一个不大于1的权值,并且权值之和为1。
求解GMM参数为什么用EM算法:
首先尝试用MLE求解
可以看出目标函数是包含和的对数,这是十分困难求解的。因此选择EM算法。
二、GMM参数估计步骤
GMM分成两步,类似于K-means的两步:
- E步:估计数据由每个分模型生成的概率,对于每个数据 x i x_i xi来说,它由第 k k