ASR 混合高斯模型GMM的理解

混合高斯模型(GMM)是使用非常广泛的统计模型,一种非常高调的说法是,混合高斯模型能拟合一切数据。虽然实际还是受到很多限制,比如混合高斯分布数量需要确定等等,不难看出其强大指出。此文包含以下内容:

  • GMM模型
  • EM算法

GMM模型

1.1 简单理解GMM

首先讲一讲什么是高斯分布。在自然界数据中有个奇怪的现象:数据量满足一定量后,其统计分布呈现钟型。前人由此分析得到高斯分布。高斯分布的主要参数是数据的平均值 μ \mu μ和方差 σ 2 \sigma^2 σ2,记作 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)

从字面上理解,GMM脱胎于高斯分布,简单来说,它是多个高斯分布的混合。GMM的基本思想是,使用多个高斯分布拟合任意曲线。相比高斯分布,GMM引入另一个参数 π k \pi_{k} πk,对应第 k k k个高斯分布的系数值,所以混合高斯分布可记作
G M M = ∑ k = 1 N π k ⋅ N ( μ , σ 2 ) GMM = \sum_{k=1}^{N} \pi_{k} \cdot N(\mu,\sigma^2) GMM=k=1NπkN(μ,σ2)
其中, π k \pi_{k} πk是数据指向第k个高斯分布的概率。GMM思想主要体现在聚类算法上:聚类算法将数据归类到最大可能的几个集合中,形成几个类。通常,也称这种功能性明显的变量为(隐\潜变量),可理解为数据的隐藏性质。借此,GMM也能用于实现聚类。

GMM模型在处理数据时,先把数据丢到单独一个高斯分布中,接着就是简单的高斯分布问题。假设一组数据符合GMM,那么只需要估计GMM模型三个参数就好。常用的基础算法是EM算法。EM算法的好处是,它特别适合应对隐变量存在时的参数估计,但是需要提前设定好隐变量的数量。

1.2 图解GMM模型

按照之前的叙述,GMM模型是几个高斯分布的组合,示意图如下:
在这里插入图片描述如果把GMM模型的估计分为两步,第一步估计 π k \pi_{k} πk得到数据指向模型的概率,第二部估计第k组高斯分布的参数 μ k \mu_{k} μk σ k 2 \sigma_{k}^2 σk2,显然第一步是最关键也最为难以理解的部分,即,如何得到数据属于某个高斯分布的概率?

记数据指向第k个模型为事件 γ k \gamma_{k} γk,其集合序列为 γ = [ γ 1 , . . . , γ k ] \gamma=[\gamma_{1},...,\gamma_{k}] γ=[γ1,...,γk]。于是,数据x指向第k个模型的概率为, P ( x ∣ γ k = 1 ) = π k P(x|\gamma_{k}=1)=\pi_{k} P(xγk=1)=πk。当已知某个数据指向哪个高斯分布,即 γ \gamma γ已知,则数据的概率就是高斯分布概率,有
π k = P ( x ∣ γ k = k ) = N ( x ∣ μ k , σ k 2 ) \pi_{k}=P(x|\gamma_{k}=k) = N(x|\mu_{k},\sigma_{k}^2) πk=P(xγk=k)=N(xμk,σk2)
数据可能出现在每个高斯分布上,于是数据的实际概率为
P ( x ) = ∑ k = 1 N π k N ( x ∣ μ k , σ k 2 ) P(x) =\sum_{k=1}^N \pi_{k} N(x|\mu_{k},\sigma_{k}^2) P(x)=k=1NπkN(xμk,σk2)
当观察时间序列 X = [ x 1 , . . . . , x T ] X=[x_{1},....,x_{T}] X=[x1,....,xT]已知的时候,首要完成的任务是估计模型参数 ( π , μ , Σ ) (\pi,\mu,\Sigma) (π,μ,Σ),记 Σ = σ k 2 \Sigma=\sigma_{k}^2 Σ=σk2。使用对数似然估计方法,X的联合概率表示为:
L ( x 1 , . . . , x T ; π , μ , Σ ) = ∏ i = 1 T ∑ k = 1 N π k N ( x i ∣ μ k , σ k 2 ) L(x_{1},...,x_{T};\pi,\mu,\Sigma) = \prod_{i=1}^{T}\sum_{k=1}^N \pi_{k} N(x_{i}|\mu_{k},\sigma_{k}^2) L(x1,...,x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值