采用高斯混合模型(GMM)进行聚类与密度估计的详解
高斯混合模型(Gaussian Mixture Model, GMM)是一种基于概率的无监督学习方法,通过多个高斯分布的线性混合来刻画数据整体的分布结构。它在聚类、密度估计及异常检测等领域广泛应用。
1. GMM的数学背景
混合模型的思想:假定数据集 { x 1 , … , x N } ⊂ R D \{x_1,\dots,x_N\}\subset \mathbb{R}^D { x1,…,xN}⊂RD 中每个样本 x i x_i xi 都来自下列生成过程:先从 K K K 个不同分布中选一个(每个分布选择概率为 π k \pi_k πk),再从该选定分布中采样。对GMM而言,每个分布都是一个多元高斯(正态)分布 N ( μ k , Σ k ) \mathcal{N}(\mu_k, \Sigma_k) N(μk,Σk),故数据的总体概率密度可写为线性组合:
p ( x ∣ λ ) = ∑ k = 1 K π k N ( x ∣ μ k , Σ k ) , 其中 ∑ k = 1 K π k = 1 , p(x\mid \lambda) =\sum_{k=1}^{K}\,\pi_k\,\mathcal{N}(x\mid \mu_k,\Sigma_k), \quad \text{其中}\;\sum_{k=1}^K \pi_k=1, p(x∣λ)=k=1∑KπkN(x∣μk,Σk),其中k=1∑Kπk=1,
π k \pi_k πk 是混合权重, μ k \mu_k μk 和 Σ k \Sigma_k Σk 分别是均值向量和协方差矩阵,第 k k k 个高斯分量的概率密度函数定义为:
N ( x ∣ μ k , Σ k ) = 1 ( 2 π ) D / 2 ∣ Σ k ∣ 1 / 2 exp { − 1 2 ( x − μ k ) T Σ k − 1 ( x − μ k ) } . \mathcal{N}(x\mid \mu_k,\Sigma_k) =\frac{1}{(2\pi)^{D/2}|\Sigma_k|^{1/2}} \,\exp\!\Bigl\{ -\tfrac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k) \Bigr\}. N(x∣μk,Σk)=(2π)D/2∣Σk∣1/21exp{ −21(x−μk)TΣk−1(x−μk)}.
1.1 似然函数
给定独立同分布的样本 X = { x 1 , … , x N } X=\{x_1,\dots,x_N\} X={ x1,…,xN},GMM的似然函数是
L ( λ ) = ∏ i = 1 N p ( x i ∣ λ ) = ∏ i = 1 N ∑ k = 1 K π k N ( x i ∣ μ k , Σ k ) . \mathcal{L}(\lambda) =\prod_{i=1}^N p(x_i\mid \lambda) =\prod_{i=1}^N \sum_{k=1}^K \pi_k\,\mathcal{N}(x_i\mid \mu_k,\Sigma_k).