前言
我在文章中看到GMM之后一带而过,后来发现自己感觉懂其实不太懂,能讲明白才是懂了对吧,今天补坑,本文是一篇听课笔记,课程来自B站:shuhuai008
课程短小,思路清楚,如果连这一点点都挤不出来又想学习的话,可以看我的笔记,会尽量一直更下去的。
一、Gaussian Mixture Model介绍
从两个角度来看高斯模型:
-
几何角度:高斯混合模型可以看成是多个高斯模型的混合
(跟绕口令一样~~) p ( x ) = ∑ k = 1 K α k N ( μ k , σ k ) , ∑ k = 1 K α k = 1 p(x)=\sum_{k=1}^{K}\alpha_kN(\mu_k,\sigma_k),\quad \sum_{k=1}^K\alpha_k=1 p(x)=k=1∑KαkN(μk,σk),k=1∑Kαk=1
-
从混合模型的角度来看,GMM是一个生成模型
下图是二维数据的例子
设 x x x是观察变量,我们引入潜在变量 z z z, z z z表示 x x x 所属的分布,( z z z可能是 c 1 c_1 c1也可能是 c 2 c_2 c2,比如图中的红色样本,它服从 z z z这个分布,那么 z z z很可能是 c 2 c_2 c2,也有小概率是 c 1 c_1 c1),所以 z z z本身也是一个离散型随机变量,它服从如下分布
c 1 c 2 c 3 . . . c k c_1 \quad c_2 \quad c_3 \quad ...c_k c1c2c3...ck | |
---|---|
z z z | 1 2 3 . . . k 1\quad 2 \quad3 \quad...k 123...k |
P ( z ) P(z) P(z) | p 1 p 2 p 3 . . . p k p_1\quad p_2 \quad p_3 \quad...p_k p1p2p3...pk |
生成过程就像是在掷骰子,骰子每一面朝上的概率是不均等的,这个概率就是 p k p_k pk,当我们掷出骰子,就知道了哪个 p k p_k pk最大, 也就知道了 x x x最有可能所属的分布,我们在该分布采样,样本 x x x就被生成出来了。