高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。
实际上在特定约束条件下,K-means算法可以被看作是高斯混合模型(GMM)的一种特殊形式。
缺点为易收敛到局部最优解。
一、什么是高斯分布?
高斯分布(Gaussian distribution)有时也被称为正态分布(normal distribution),是一种在自然界大量的存在的、最为常见的分布形式。在提供精确数学定义前,先用一个简单的例子来说明。
如果我们对大量的人口进行身高数据的随机采样,并且将采得的身高数据画成柱状图,将会得到如下图1所示的图形。这张图模拟展示了334个成人的统计数据,可以看出图中最多出现的身高在180cm左右2.5cm的区间里。
图1 由334个人的身高数据构成的正态分布直方图
这个图形非常直观的展示了高斯分布