对Gaussian Mixture Model和Expectation Maximization算法一直以来了解不多,一来直接使用这两个方法的场景少,二来初看这两个算法确实有些一头雾水,不太理解为什么要这么做。上学期的课又涉及到了这部分,还是咬牙把这块给啃了下来,结合“周志华西瓜书”,在聚类场景下对这两部分做下总结。
高斯混合(Mixture of Gaussian)
$n$维随机变量$x$服从多元高斯分布,则概率密度函数为:其中 μ \mu μ为均值向量, Σ \Sigma Σ为协方差矩阵,给定这两个参数,则可以确定高斯分布,记为 p ( x ∣ μ , Σ ) p(x|\mu,\Sigma) p(x∣μ,Σ)。当维度退化为一维、二维空间时,高斯分布图像如下:
在此基础上,我们可以定义高斯混合分布如下:
该分布由 k k k个高斯分布混合而成, α i \alpha_i αi为混合系数,表示每个高斯分布的占比, ∑ i α i = 1 \sum_i \alpha_i=1 ∑iαi=1。
为什么要使用高斯混合模型做聚类?考虑如下两个图: