Gaussian Mixed Model 高斯混合模型
1.高斯分布
Figure 1:高斯分布
高斯分布(正态分布)是统计学常见的分布之一,它在自然界以及社会科学中被广泛使用。高斯分布是连续型的概率分布,其分布曲线呈现对称状。它具有很多重要的性质,其中最重要的是中心极限定理,它表明许多独立随机变量的均值将近似地服从高斯分布,即使这些变量本身不服从高斯分布。
对于一维数据 x x x,高斯分布的概率密度函数如Fig. 1:
P ( x ∣ θ ) = N ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − ( x − μ ) 2 2 σ 2 ) (1) P(x|\theta)=\mathcal{N}(x;\mu,\sigma^2)=\frac1{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2}) \tag{1} P(x∣θ)=N(x;μ,σ2)=2πσ21exp(−2σ2(x−μ)2)(1)
对于多维数据 x ∈ R D x\in \mathbb{R}^D x∈RD ,高斯分布的概率密度函数如下:
P ( x ∣ θ ) = 1 ( 2 π ) D 2 ∣ Σ ∣ 1 2 e x p ( − ( x − μ ) T Σ − 1 ( x − μ ) 2 ) (2) P(x|\theta)=\frac1{(2\pi)^{\frac D2}|\Sigma|^{\frac12}}exp(-\frac{(x-\mu)^T\Sigma^{-1}(x-\mu)}2) \tag{2} P(x∣θ)=(2π)2D∣Σ∣211exp(−2(x−μ)TΣ−1(x−μ))(2)
其中, θ \theta θ 表示参数 μ \mu μ(均值)、 σ \sigma σ(标准差)等参数, Σ \Sigma Σ 代表协方差。
2.高斯混合分布
Figure 2:高斯混合分布
如Fig. 2,高斯混合分布可以直观的理解为K个高斯分布混合得到的一种分布,且每个高斯分布被称为一个“分量”。每个分量由其自身的均值和协方差参数化。高斯混合模型的意义在于它能够灵活地拟合各种类型的数据分布,因为它可以由多个高斯分布组合而成。作为生成式模型,高斯混合模型可以拟合数据的分布,也可以根据分布生成新样本。这使得它在处理复杂的数据集时具有较好的表现。高斯混合模型也可以用于聚类任务,其中每个分量可以被视为一个聚类中心。
高斯混合分布的概率密度函数如下:
p ( x ) = ∑ i = 1 K π i N ( x ∣ π i , Σ i ) (3) p(x)=\sum_{i=1}^K\pi_i\mathcal{N}(x\mid\pi_i,\Sigma_i) \tag{3} p(x)=