GMM(高斯混合模型主要用于聚类)
(1)某样本点在GMM上的概率为:
其中,GMM由K个单GM构成:表示第k个GM的权重;
为该样本在第k个GM(其均值为
,方差为
)的概率。
则所有的N个样本点在GMM上的概率为:
采用对数形式,则得到其似然函数:
我们的目标是:最大化logP(X),使所有样本在高斯混合模型GMM上的概率最大。其中,又可以表示为
。
(2) 第i个样本由第k个GM模型生成的概率为:
其中,分子表示样本由第k个模型生成的概率,分母表示样本
由所有模型生成的概率。
(3) 第k个GM模型的均值,由在该模型上的所有样本数据共同决定:
同理,我们可以得到:
(4)我们将(3)中求得的代入logP(X),考察是否与上一轮参数构成的logP(X)相收敛(即差值小于一定的阈值);若不收敛,则继续进行(2)(3)步进行迭代操作,直至收敛。当logP(x)收敛时:对于样本
,在(2)中计算出它在各GM中的生成概率,则该样本服从最大生成概率的那个GM。
注:初始时的,可以对
进行随机赋值得到。
参考:
http://www.cnblogs.com/CBDoctor/archive/2011/11/06/2236286.html