(系列笔记)25.GMM算法(下)

本文详细介绍了高斯混合模型(GMM),包括高斯分布的性质、中心极限定理及其应用,以及如何使用EM算法学习GMM的参数。文章通过实例展示了GMM在数据建模中的作用,并提供了代码示例。
摘要由CSDN通过智能技术生成

GMM——用 EM 算法求解 GMM

所谓高斯混合模型(GMM),顾名思义,就是将若干个概率分布为高斯分布的分模型混合在一起的模型。

在具体讲解 GMM 之前,我们先来看看高斯分布。

高斯分布

高斯分布密度函数

高斯分布(Gaussian Distribution),又名正态分布(Normal distribtion),它的密度函数为:
在这里插入图片描述
分布形式如下图(四个不同参数集的高斯分布概率密度函数):
在这里插入图片描述
高斯分布的概率密度函数曲线呈钟形,因此人们经常将其称之为钟形曲线(类似于寺庙里的大钟,因此得名)。

图中红色曲线是 μ = 0 , σ 2 = 1 μ=0,σ^2=1 μ=0,σ2=1 的高斯分布,这个分布有个专门的名字:标准高斯分布。

常见的分布

高斯分布是一种非常常见的概率分布,经常被用来定量自然界的现象。

现实生活中的许多自然现象都被发现近似地符合高斯分布,比如人类的寿命、身高、体重、智商等和我们生活息息相关的数据。

不止是人类体征或者生物特征,在金融、科研、工业等各个领域都有大量现实业务产生的数据被证明是符合高斯分布的。

中心极限定理

高斯分布的重要性质

高斯分布有一个非常重要的性质:在适当的条件下,大量相互独立的随机变量的均值经适当标准化后,依分布收敛于高斯分布(即使这些变量自己的分布并不是高斯分布)——这就是中心极限定理。
严格说起来,中心极限定理并不是一个定理,而是一类定理。

这类定理从数学上证明了:在自然界与人类生产活动中,一些现象受到许多相互独立的随机因素的影响,当每个因素所产生的影响都很微小时,总的影响可以看作是服从高斯分布的。

经典中心极限定理

中心极限定理中,最常用也最简单的是经典中心极限定理,这一定理说明了什么,我们看下面的解释。

( x 1 , . . . , x n ) (x_1,...,x_n) (x1,...,xn)为一个独立同分布的随机变量样本序列,且这些样本值的期望为 μ \mu μ,有限方差为 σ 2 \sigma^2 σ2 S n S_n Sn为这些样本的算术平均值:
在这里插入图片描述

注意:一般情况下 n ≥ 30 n\ge30 n30,而 μ \mu μ S n S_n Sn的极限。

随着n的增大, n ( S n − μ ) \sqrt{n}(S_n-\mu) n (Snμ)的分布逐渐近似于均值为0,方差是 σ 2 \sigma^2 σ2的高斯分布,即:
在这里插入图片描述
也就是说,无论 x i x_i xi自身分布是什么,随着n变大,这些样本平均值经过标准化处理( n ( S n − μ ) \sqrt{n}(S_n-\mu) n (Snμ))后的分布,都会逐渐接近高斯分布。

一个例子

定理说起来有点抽象,我们来看一个例子就明白了。

我们用一个依据均匀概率分布生成数字的生成器,来生成0到100之间的数字。
生成器每次运行都连续生成 N 个数字——我们将每次运行称为一次“尝试”。

我们让这个生成器连续尝试500次,每次尝试后都计算出本次生成的 N 个数字的均值。最后,将500次的统计结果放入二维坐标系,x 轴(横轴)表示一次尝试中 N 个数字的均值,而 y 轴(纵轴)表示均值为 x 的尝试出现的次数(观察频次,Observed Frenquncy)。下图展示了 N=30、N=100和 N=250 时的三种情况。直观可见,分布基本上都是钟形曲线,而且 N 越大,曲线越平滑稳定。
在这里插入图片描述

另一个例子

再来看一个抛硬币的例子,这是最早发现的中心极限定理的特例,由法国数学家棣莫弗(Abraham de Moivre)发表在1733年出版的论文里。

一个人掷硬币,每次 TA 都一下子抛出一大把 n 枚硬币,然后统计落地后“头”(Head,印有人头像的一面)朝上硬币出现的个数。总共抛掷很多次,那么这一系列投掷活动中硬币“头”朝上的可能性( P r o p o r t i o n O f H e a d s = 没 次 正 面 朝 上 的 个 数 n ProportionOfHeads=\frac{没次正面朝上的个数}{n} ProportionOfHeads=

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值