混合高斯模型(Gaussian Mixture Model)及其参数计算方法

高斯分布

  高斯分布(Gaussian Distribution)又称正态分布(Normal Distribution),因其具有良好的数学和计算性质,被广泛应用于各个领域。
    根据棣莫弗中心极限定理,一组具有有限均值方差的独立同分布的随机变量之和,近似服从正态分布。这个定理奠定了自然界中的各种现象,必定和正态分布有着密不可分的关系。

一维高斯分布

  设一维随机变量 X X X服从均值为 μ \mu μ,方差为 σ 2 \sigma^{2} σ2的正态分布,记为 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^{2}) XN(μ,σ2)
其概率密度函数(PDF)为:
ϕ ( x ; μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 \begin{equation} \phi(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma} e^{\displaystyle -\frac{(x-\mu)^{2}}{2\sigma^{2}}} \end{equation} ϕ(x;μ,σ)=2π σ1e2σ2(xμ)2
   高斯分布的概率密度函数呈现出在均值处高、两边低的形状,因此又被称为钟形分布

多维高斯分布

   多维高斯分布的每一个维度都是一个正态分布,它们不一定互相独立,下图是一个二维正态分布[1]的概率密度函数图像:
请添加图片描述
具有协方差矩阵 Σ \Sigma Σ N N N维正态分布,可记为 N ( μ , Σ ) N(\mu,\Sigma) N(μ,Σ),其中:
μ \mu μ 代表均值向量
Σ \Sigma Σ 代表协方差矩阵

其概率密度表达式为:
ϕ ( x ; μ , Σ ) = 1 ( 2 π ) N 2 ∣ Σ ∣ 1 2 e − ( x − μ ) T Σ − 1 ( x − μ ) 2 \begin{equation} \phi(x;\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{N}{2}} |\Sigma|^{\frac{1}{2}}} e^{\displaystyle -\frac{(x-\mu)^{T}\Sigma^{-1}(x-\mu)}{2}} \end{equation} ϕ(x;μ,Σ)=(2π)2N∣Σ211e2(xμ)TΣ1(xμ)

混合高斯模型(GMM)

  对于一组呈多峰分布的数据或非椭圆分布族,难以用一个正态分布进行建模,因此需要使用混合模型对其进行建模。

混合高斯模型概率分布

p ( x ; θ ) = ∑ k = 1 K α k ϕ ( x ; θ k )         , ∑ k = 1 K α k = 1 \begin{equation} p(x;\theta)=\sum_{k=1}^{K}\alpha_{k}\phi(x;\theta_{k}) \ \ \ \ \ \ \ ,\sum_{k=1}^{K}\alpha_{k}=1 \end{equation} p(x;θ)=k=1Kαkϕ(x;θk)       ,k=1Kαk=1
其中[2]
α k \alpha_{k} αk 代表第 k k k个子模型在总体中出现的概率
K K K 代表一共有 K K K个子模型
θ \theta θ 代表GMM中各个子模型的参数集合
θ k \theta_{k} θk 代表第 k k k个子模型的参数

  可以看到,GMM并不是多个服从正态分布的随机变量的和,而是多个服从正态分布的随机变量的概率密度的加权和。并且容易证明,对 ( 3 ) (3) (3)式进行反常积分,结果还是1。
  从式子中也可以很直观地想象出GMM密度函数的图像是包含多个正态峰的曲线。

参数估计

对于给定的大量样本集合,可以使用极大似然估计求出其各个子模型的均值和方差
对于 N N N个独立同分布的样本,以及给定的超参数K,该分布参数的似然函数为:
L ( θ ) = l n ∏ i = 1 N p ( x i ; θ ) = ∑ i = 1 N ( l n ∑ k = 1 K α k ϕ k ( x i ; θ k ) ) \begin{equation} \begin{split} L(\theta)&=ln\prod_{i=1}^{N} p(x_{i};\theta) \\ &= \sum_{i=1}^{N}(ln \sum_{k=1}^{K}\alpha_{k}\phi_{k}(x_{i};\theta_{k})) \end{split} \end{equation} L(θ)=lni=1Np(xi;θ)=i=1N(lnk=1Kαkϕk(xi;θk))
求解这个似然函数的极大值非常困难,但是可以使用EM算法进行迭代求解

EM算法求解参数

p i k p_{ik} pik代表给定第 i i i个样本的值,其在第 k k k个子模型中的概率,即 P ( K = k ∣ X = x i ) P(K=k|X=x_{i}) P(K=kX=xi)
迭代法算法如下:

  1. 初始化 θ k \theta_{k} θk
  2. 计算 p i k p_{ik} pik
    p i k = α k ϕ k ( x i ∣ θ k ) ∑ k = 1 K α k ϕ k ( x i ∣ θ k ) p_{ik}=\frac{\alpha_{k} \phi_{k}(x_{i}|\theta_{k})}{\sum_{k=1}^{K}\alpha_{k} \phi_{k}(x_{i}|\theta_{k})} pik=k=1Kαkϕk(xiθk)αkϕk(xiθk)
  3. 计算 μ k \mu_{k} μk
    μ k = ∑ i = 1 N p i k x i ∑ i = 1 N p i k \mu_{k}=\frac{\sum_{i=1}^{N}p_{ik}x_{i}}{\sum_{i=1}^{N}p_{ik}} μk=i=1Npiki=1Npikxi
  4. 计算 σ k \sigma_{k} σk
    σ k = ∑ i = 1 N p i k ( x i − μ k ) ( x i − μ k ) T ∑ i = 1 N p i k \sigma_{k}=\frac{\sum_{i=1}^{N}p_{ik}(x_{i}-\mu_{k})(x_{i}-\mu_{k})^{T}}{\sum_{i=1}^{N}p_{ik}} σk=i=1Npiki=1Npik(xiμk)(xiμk)T
  5. 计算下一次迭代的 α k \alpha_{k} αk,若 ∣ ∣ θ i − θ i + 1 ∣ ∣ < ε ||\theta_{i}-\theta_{i+1}||<\varepsilon ∣∣θiθi+1∣∣<ε,终止迭代;否则,转第2步
    α k = ∑ i = 1 N p i k N \alpha_{k}=\frac{\sum_{i=1}^{N}p_{ik}}{N} αk=Ni=1Npik

  为了保证迭代不会使极大似然函数陷入局部极大值,可以多次赋予初始值进行迭代,并取使极大似然函数最大的一组迭代结果。

参考文献

[1] https://baike.baidu.com/item/二维正态分布/2951835
[2] https://zhuanlan.zhihu.com/p/30483076

  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 高斯混合模型 (Gaussian Mixture Model) 是一种生成模型,假设数据是由多个高斯分布生成的,并使用最大似然估计或EM算法来估计模型参数。它通常用于聚类分析,并在许多领域中都得到了广泛应用,如图像分析、信号处理、生物信息学等。 ### 回答2: 高斯混合模型是一种概率模型,用于对数据进行建模和聚类。它由多个高斯分布混合而成,每个高斯分布代表一个聚类。高斯混合模型适用于具有复杂数据分布的场景,能够对数据的形状、密度和方差等进行建模。 在高斯混合模型中,每个高斯分布都有自己的均值和协方差矩阵。通过选择适当的混合模型参数,可以使得模型能够更好地拟合数据。模型参数估计可以使用最大似然估计或其他优化算法进行求解。 高斯混合模型可以用于聚类分析,在聚类过程中,模型根据数据分布的不同,将数据点归属于不同的聚类。基于高斯混合模型的聚类方法可以灵活地适应不同形状的数据分布,能够发现非球形和重叠的聚类。 此外,高斯混合模型也可以用于生成新的数据样本。根据已经学得的模型参数,可以从高斯分布中随机采样,生成与原始数据相似的新数据样本。 总之,高斯混合模型是一种常用的概率模型,可以用于数据的建模、聚类和生成。它具有灵活性和准确性,适用于各种不同类型的数据分析问题。 ### 回答3: 高斯混合模型Gaussian Mixture Model,GMM)是一种用于对数据进行建模和聚类的统计模型。GMM可以看作是多个高斯分布的线性组合,每个高斯分布表示一个聚类。 GMM的基本思想是假设数据是由多个高斯分布组成的混合体。通过估计每个高斯分布的均值和方差,以及混合系数(表示每个分布的权重),可以得到对数据进行建模的 GMM。这样,可以通过计算每个数据点对于每个高斯分布的概率来进行聚类。具体而言,对于给定数据点,计算其属于每个高斯分布的概率,然后根据概率大小将其归为相应的聚类。 GMM的参数估计可以使用最大似然估计(Maximum Likelihood Estimation,MLE)方法。通过迭代优化,可以找到一个局部最优解,使得 GMM 最大化观测数据的似然函数。 GMM有以下几个特点:首先,GMM允许数据点属于多个聚类。每个聚类的权重是小于等于1的概率。其次,GMM对数据的分布形态没有假设,而是通过调整高斯分布的均值和方差来适应数据。最后,GMM可以解决由于观测噪声、缺失数据或异常值引起的数据不完全性和不准确性的问题。 GMM在模式识别、数据挖掘和图像处理等领域广泛应用,例如人脸识别、语音识别和文本分类等。它可以根据数据的分布情况自动进行聚类分析,并可以用于特征提取、数据压缩和异常检测等任务。然而,GMM也存在一些缺点,比如对于大规模数据集的计算复杂度较高,并且对初始参数敏感,需要进行适当选择。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值