高斯混合模型(GMM)是一种常用的聚类模型,通常我们利用最大期望算法(EM)对高斯混合模型中的参数进行估计。
本教程中,我们自己动手一步步实现高斯混合模型。
高斯混合模型(Gaussian Mixture Model,GMM)是一种软聚类模型。 GMM也可以看作是K-means的推广,因为GMM不仅是考虑到了数据分布的均值,也考虑到了协方差。和K-means一样,我们需要提前确定簇的个数。
GMM的基本假设为数据是由几个不同的高斯分布的随机变量组合而成。如下图,我们就是用三个二维高斯分布生成的数据集。
2. 最大期望算法(Expectation–Maximization, EM)
有了隐变量还不够,我们还需要一个算法来找到最佳的W,从而得到GMM的模型参数。EM算法就是这样一个算法。
简单说来,EM算法分两个步骤。第一个步骤是E(期望),用来更新隐变量WW;
第二个步骤是M(最大化),用来更新GMM中各高斯分布的参量
然后重复进行以上两个步骤,直到达到迭代终止条件。
3. 具体步骤以及Python实现
完整代码在第4节。
首先,我们先引用一些我们需要用到的库和函数。
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.patches import Ellipse
from scipy.stats import multivariate_normal
plt.style.use('seaborn')
接下来,我们生成2000条二维模拟数据,其中400个样本来自N(μ1,var1)N(μ1,var1),600个来自N(μ2,var2)N(μ2,var2),1000个样本来自N(μ3,var3)N(μ3,var3)
# 第一簇的数据
num1, mu1, var1 = 400, [0.5, 0.5], [1, 3]
X1 = np.random.multivariate_normal(mu1, np.diag(var1), num1)
# 第二簇的