GMM即高斯混合模型,是将数据集看成是由多个高斯分布线性组合而成,即数据满足多个高斯分布。EM算法用来以迭代的方式寻找GMM中个高斯分布的参数以及权值。GMM可以用来做k分类,而混合的高斯分布个数也就是分类数K。
当数据Y都是一维的时候,我们假设由两个高斯分布组成
就有概率密度函数
PI和1-PI作为各自分布的权值
这样EM的实现步骤就很简单了
一维情况下实际上那些参数都是一些数
当数据点为多维的向量时,就要做一些调整,原本的均值变为均值向量,方程要变成协方差矩阵。
E步:
M步: