无监督算法——高斯混合模型(GMM)

采用高斯混合模型(GMM)进行聚类与密度估计的详解

高斯混合模型(Gaussian Mixture Model, GMM)是一种基于概率的无监督学习方法,通过多个高斯分布的线性混合来刻画数据整体的分布结构。它在聚类、密度估计及异常检测等领域广泛应用。


1. GMM的数学背景

混合模型的思想:假定数据集 { x 1 , … , x N } ⊂ R D \{x_1,\dots,x_N\}\subset \mathbb{R}^D { x1,,xN}RD 中每个样本 x i x_i xi 都来自下列生成过程:先从 K K K 个不同分布中选一个(每个分布选择概率为 π k \pi_k πk),再从该选定分布中采样。对GMM而言,每个分布都是一个多元高斯(正态)分布 N ( μ k , Σ k ) \mathcal{N}(\mu_k, \Sigma_k) N(μk,Σk),故数据的总体概率密度可写为线性组合

p ( x ∣ λ ) = ∑ k = 1 K   π k   N ( x ∣ μ k , Σ k ) , 其中    ∑ k = 1 K π k = 1 , p(x\mid \lambda) =\sum_{k=1}^{K}\,\pi_k\,\mathcal{N}(x\mid \mu_k,\Sigma_k), \quad \text{其中}\;\sum_{k=1}^K \pi_k=1, p(xλ)=k=1KπkN(xμk,Σk),其中k=1Kπk=1,
π k \pi_k πk 是混合权重, μ k \mu_k μk Σ k \Sigma_k Σk 分别是均值向量和协方差矩阵,第 k k k 个高斯分量的概率密度函数定义为:

N ( x ∣ μ k , Σ k ) = 1 ( 2 π ) D / 2 ∣ Σ k ∣ 1 / 2   exp ⁡  ⁣ { − 1 2 ( x − μ k ) T Σ k − 1 ( x − μ k ) } . \mathcal{N}(x\mid \mu_k,\Sigma_k) =\frac{1}{(2\pi)^{D/2}|\Sigma_k|^{1/2}} \,\exp\!\Bigl\{ -\tfrac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k) \Bigr\}. N(xμk,Σk)=(2π)D/2Σk1/21exp{ 21(xμk)TΣk1(xμk)}.

1.1 似然函数

给定独立同分布的样本 X = { x 1 , … , x N } X=\{x_1,\dots,x_N\} X={ x1,,xN},GMM的似然函数是

L ( λ ) = ∏ i = 1 N p ( x i ∣ λ ) = ∏ i = 1 N ∑ k = 1 K π k   N ( x i ∣ μ k , Σ k ) . \mathcal{L}(\lambda) =\prod_{i=1}^N p(x_i\mid \lambda) =\prod_{i=1}^N \sum_{k=1}^K \pi_k\,\mathcal{N}(x_i\mid \mu_k,\Sigma_k).

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DuHz

喜欢就支持一下 ~ 谢谢啦!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值