机器学习读书笔记（高斯混合模型GMM与EM）（改）

最新推荐文章于 2024-06-28 09:44:04 发布

魔峥

最新推荐文章于 2024-06-28 09:44:04 发布

阅读量3.9k

点赞数 1

分类专栏：机器学习文章标签：机器学习读书笔记高斯混合模型 EM

本文链接：https://blog.csdn.net/dajiabudongdao/article/details/51893046

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

高斯混合模型（Gaussian mixture model，GMM）是单一高斯概率密度函数的延伸。GMM能够平滑地近似任意形状的密度分布。
欲了解高斯混合模型，那就先从基础的单一高斯概率密度函数讲起。（数学公式字体太难看了！！！！！！！）
注意：这一一篇致力于详细阐述过程的文章，如果你懂，可以快速跳过。

单高斯分布模型GSM

假设我们有一组在高维空间（维度为 d）的点 $x_{i}$ , i=1,…,n，若这些点的分布近似椭球状，则我们可用高斯密度函数来描述产生这些点的概率密度函数（统计学记为PDF），记住这个关键公式：

g (x i; μ, Σ) = 1 ( 2 π ) d | Σ | - - - - - - - \sqrt e x p [- 1 2 (x - μ) T Σ - 1 (x - μ)]

$g(x_{i};\mu,\Sigma)=\frac{1}{\sqrt{(2\pi)^d|\Sigma|}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]$

其中μ代表此密度函数的中心点，Σ则代表此密度函数的协方差矩阵（Covariance Matrix），这些参数决定了此密度函数的特性，如函数形状的中心点、宽窄及走向等。在《程序员的数学2》这本书中给大家一个简单的记法。这东西就是:

□ e x p (x 1 - μ, x 2 - μ, . . . . x n - μ 的 二 次 型)

$\Box exp(x_1-\mu,x_2-\mu,....x_n-\mu的二次型)$
前面的方框表示是多少不重要，常数而已不是0就行。(是0也没事，这样的模型我们都轻松了。。。)
在实际应用中μ通常用样本均值来代替，Σ通常用样本方差来代替。GSM单从横轴，纵轴都遵循一维高斯分布。GSM只有单中心点。如图（图片来源）：
符合GSM分布的二维点在平面上

协方差矩阵简介（与主体内容无关，仅单纯介绍）

那么什么叫协方差矩阵呢？矩阵中的第(i,j)个元素是 $X_{i},X_{j}$ 的协方差。
Wikipedia是这么详细定义的：
假设X是以n个随机变数（其中的每个随机变数是也是一个向量，当然是一个行向量）组成的列向量，

X = ⎡ ⎣ ⎢ ⎢ X 1 ⋮ X n ⎤ ⎦ ⎥ ⎥

$X = \begin{bmatrix}X_1 \\ \vdots \\ X_n \end{bmatrix}$
并且

μi $\mu_i$ 是其第i个元素的期望值，即,

μi=E(Xi) $\mu _{i}=E(X_{i})$ , 其中

Xi $X_{i}$ 是列向量中的一个标量。协方差矩阵的第i，j项（第i，j项是一个协方差）被定义为如下形式：

Σ i j = c o v (X i, X j) = E [(X i - μ i) (X j - μ j) ⊤]

$\Sigma _{{ij}}={\mathrm {cov}}(X_{i},X_{j})={\mathrm {E}}{\begin{bmatrix}(X_{i}-\mu _{i})(X_{j}-\mu _{j})^{\top }\end{bmatrix}}$
而协方差矩阵为：

Σ=E[(Xi−E|X|)(Xj−E|X|)⊤]= $\Sigma={\mathrm {E}}{\begin{bmatrix}(X_{i}-E|X|)(X_{j}-E|X|)^{\top }\end{bmatrix}}=$

⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢E[(X1−μ1)(X1−μ1)]E[(X2−μ2)(X1−μ1)]⋮E[(Xn−μn)(X1−μ1)]E[(X1−μ1)(X2−μ2)]E[(X2−μ2)(X2−μ2)]⋮E[(Xn−μn)(X2−μ2)]⋯⋯⋱⋯E[(X1−μ1)(Xn−μn)]E[(X2−μ2)(Xn−μn)]⋮E[(Xn−μn)(Xn−μn)]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥ $\begin{bmatrix}\mathrm {E} [(X_{1}-\mu _{1})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]\\\\\mathrm {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{2}-\mu _{2})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]\\\\\vdots &\vdots &\ddots &\vdots \\\\\mathrm {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{n}-\mu _{n})(X_{n}-\mu _{n})]\end{bmatrix}$

最大似然估计的结果

欲求得最佳的参数来描述所观察到的资料点，可由最大似然估计法的来求得。再次之前我们必须要明确我们要求什么参数？在GSM模型中μ与Σ是两个模型参数，x是输入。
1. 在单高斯密度函数的假设下，当 $x=x_i$ 时，其密度密度为 $g(x_{i};\mu,\Sigma)$
2. 若我们假设 $x _i$ ,i=1 ~ n 之间为互相独立的事件，则发生 $X={x_1,x_2,...,x_n}$ 的概率密度为:

p (X; μ, Σ) = \prod i = 1 n g (x i; μ, Σ)

$p(X;\mu,\Sigma)=\prod_{i=1}^{n} g(x_{i};\mu,\Sigma)$
3. 然后就是取对数求导，经计算获得参数μ与Σ的估计

μ^= 1 n \sum i = 1 n x i Σ^= 1 n - 1 \sum i = 1 n (x i - μ^) (x i - μ^) T

$\hat{\mu} = \frac{1}{n}\sum_{i=1}^{n}x_i\\ \hat{\Sigma}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat{\mu})(x_i-\hat{\mu})^T$

高斯混合模型GMM

如果我们的数据集在d维空间中的分布不是椭球状，中心点不唯一。那么就不适合以一个单一的高斯密度函数。下面是混合了三个单模型的混合高斯模型:
$p(x)=\alpha_1 g(x_{1};\mu_1,\Sigma_1)+\alpha_2 g(x_{2};\mu_2,\Sigma_2)+\alpha_3 g(x_{3};\mu_3,\Sigma_3)$
此概率密度函数的参数为
$(\alpha_1,\alpha_2,\alpha_3,\mu_1,\mu_2,\mu_3,\Sigma_1,\Sigma_2,\Sigma_3)$ ，而且要满足 $\alpha_1+\alpha_2+\alpha_3=1$
α是各模型的系数，这其实是一个加权单位化的思想。下面是n=2的混合高斯模型，我们发现有两个中心点。由于模型增多造成的模型参数增多，确定参数成为首要问题。（看这个图，强迫症的人肯定想聚类一下）
这里写图片描述

为了简化，通常将上面的协方差矩阵转化为我们常用的方式
$\Sigma_i=\sigma_i^2I,i=1,2,3,...$
其中，I为单位矩阵。其实求参数可以也用极大似然估计法，然后，你就慢慢玩吧。。。。。看我这态度就知道基本没人用极大似然估计单个搞的话就太乱。于是EM算法被请出来了，虽然核心也在用极大似然估计。

EM算法在高斯混合模型的应用

下面主要摘自李航《统计学习方法》，以及自己的笔记。周志华的《机器学习》书中没有详细介绍。
那么什么是EM算法。说白了，就是每次迭代由两步组成：先E一下，再M一下。E步，求期望（Expectation）；M步，求极大值（Maximization）。
为什么这么搞？关键全在一个能收敛的Q函数。E步就是求这个Q函数的期望。M步就是极大化参数。不断地EMEMEMEM...操作逐步近似极大化参数这就是EM算法。
关于EM算法的正确性，喜欢了解的就看下书《统计学习方法》9.1.2。下面仅仅说怎么使用。

while（）\\不接受误差就循环
{
    Expectation();
    Maximization();
}

假设观测数据为 $x_1,x_2,...,x_N$ 由高斯混合模型生成。

P (x | θ) = \sum k = 1 K α k ϕ (x | θ k) θ = (α 1, α 2, . . ., α K; μ 1, μ 2, . . ., μ K, σ 1, σ 2, . . ., σ K)

$P(x|\theta)=\sum_{k=1}^{K}\alpha_{k}\phi(x|\theta_{k})\\ \theta=(\alpha_1,\alpha_2,...,\alpha_K;\mu_1,\mu_2,...,\mu_K,\sigma_1,\sigma_2,...,\sigma_K)$

明确隐变量，写出完全数据的对数似然函数
我们现在先切换到上帝视角。可以设想观测数据 $x_i，i=1,2,...,N$ 是这样产生的：首先依据各单一模型的系数 $\alpha_k$ 选择高斯分布分模型 $\phi(x|\theta_{k})$ ; 然后依据这个分模型的概率分布生成观测数据 $x_i$ 。从上图n=2的角度讲就是，选个圈，生成点。
我们从上帝视角回来，事实是我们手上只有不知从哪里冒出来的X数据集，它是已知的，但反应X中的某 $x_i$ 是来自哪个分模型是未知的。这TM就很尴尬了。
像这种有结论没原因的事例。我们最简单的方法就是设置一个隐变量。这一步就体现了数学家的高明。这里习惯用隐变量 γ来表征，其定义如下：
$γ i k = {10 第 i 个观测来自第 k 个分模型否则$ $\gamma_{ik} =\begin{cases} 1 & 第i个观测来自第k个分模型\\ 0 & 否则 \\ \end{cases}$
其中i=1,2,…,N;k=1,2,…,K， $\gamma_{ik}$ 就是分模型k对观测数据 $x_i$ 的响应度。
这样写出完全数据的似然函数（后验概率的感觉出现了）：
$P (y, γ | θ) = \prod j = 1 N P (x i, γ i 1, γ i 2, . . ., γ i k | θ) = \prod k = 1 K α n k k \prod i = 1 N [1 2 π - - \sqrt σ k e x p (- ( y i - μ k ) 2 2 σ 2 k)] γ i k$ $P(y,\gamma|\theta)=\prod_{j=1}^{N}P(x_i,\gamma_{i1},\gamma_{i2},...,\gamma_{ik}|\theta)\\ =\prod_{k=1}^{K}\alpha_k^{n_k}\prod_{i=1}^{N}[\frac{1}{\sqrt{2\pi}\sigma_k}exp(-\frac{(y_i-\mu_k)^2}{2\sigma_k^2})]^{\gamma_{ik}}$
其中 $n k = \sum i = 1 N γ i k$ $n_k=\sum_{i=1}^N\gamma_{ik}$
EM算法中的E步，确定Q函数，求它的期望

插入知识点：Q函数与EM

Q函数：完全数据的对数似然函数 $logP(Y,Z|θ)$ 关于在给定观测数据Y和当前参数 $\theta^{(i)}$ 下对未观测数据Z的条件概率分布 $P(Z|Y,\theta^{(i)})$ 的期望称为Q函数。即：

Q (θ, θ (i)) = E Z [l o g P (Y, Z | θ) | Y, θ (i)]

$Q(\theta,\theta^{(i)})=E_{Z}[logP(Y,Z|\theta)|Y,\theta^{(i)}]$

这样的Q函数可以作递推，上面公式中，Z是未观测数据，Y是观测数据，Q函数中第一个变元代表极大化参数，第二个表示参数当前估计值。
在EM算法的E步中，每次迭代是在求Q函数及其极大。EM算法中的这种Q函数有严格的收敛性证明。李航《统计学习方法》9.2

这里的Q函数为：

Q (θ, θ (i)) = E [l o g P (x, γ | θ) | x, θ (i)] = \sum k = 1 K {\sum j = 1 N (E γ j k) l o g α k + \sum j = 1 N (E γ j k) [l o g (1 2 π - - \sqrt) - l o g σ k - 1 2 σ 2 k (y j - μ k) 2]}

$Q(\theta,\theta^{(i)})=E[logP(x,\gamma|\theta)|x,\theta^{(i)}]\\=\sum_{k=1}^K\{\sum_{j=1}^N(E\gamma_{jk})log\alpha_k+\sum_{j=1}^N(E\gamma_{jk})[log(\frac{1}{\sqrt{2\pi}}) - log\sigma_k - \frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}$
这样

E(γjk|x,θ) $E(\gamma_{jk}|x,\theta)$ （记为

γjk^ $\hat{\gamma_{jk}}$ ）就需要单独计算。（注意这里的

θ $\theta$ 应该有上角标，但是在E步中不涉及上角标操作，为了避免与角标冲突故省去, 同时加将

γ $\gamma$ 的角标换成j。）
下面我们计算出分模型k对观测数据x的响应度 γ。因为是0-1分布所以可以这算：

γ j k^= E (γ j k | x, θ) = P (γ j k = 1 | x, θ) = α k ϕ ( y j | θ k ) \sum K k = 1 α k ϕ ( y j | θ k ), j = 1, 2, . . ., N; k = 1, 2, . . ., K

$\hat{\gamma_{jk}}=E(\gamma_{jk}|x,\theta)=P(\gamma_{jk}=1|x,\theta) \\=\frac{\alpha_k\phi(y_j|\theta_k)}{\sum_{k=1}^K\alpha_k\phi(y_j|\theta_k)},j=1,2,...,N;k=1,2,...,K$
3. EM中的M步
迭代的M步是求使函数取极大值的θ，并赋值给下一次迭代：

θ (i + 1) = a r g max θ Q (θ, θ (i))

$\theta^{(i+1)}=arg\max_{\theta}Q(\theta,\theta^{(i)})$
这里就可以用最大似然估计了。对

μk,σ2k $\mu_k,\sigma_k^2$ 分别求偏导并等于0。求α时要注意隐藏条件

\sum k = 1 K α k = 1

$\sum_{k=1}^K\alpha_k=1$ (就是开始时我们说的加权值要等于1)

μ k^= \sum N j = 1 γ ^ j k x j \sum N j = 1 γ ^ j k σ 2 k^= \sum N j = 1 γ ^ j k ( x j - μ k ) 2 \sum N j = 1 γ ^ j k α k^= n k N = \sum N j = 1 γ j k ^ N

$\hat{\mu_k}=\frac{\sum_{j=1}^{N} \hat{\gamma}_{jk}x_j}{\sum_{j=1}^N\hat{\gamma}_{jk}}\\ \hat{\sigma_k^2}=\frac{\sum_{j=1}^N\hat{\gamma}_{jk}(x_j-\mu_k)^2}{\sum_{j=1}^N\hat{\gamma}_{jk}}\\ \hat{\alpha_k}=\frac{n_k}{N}=\frac{\sum_{j=1}^N\hat{\gamma_{jk}}}{N}$
知道这些值变化不再明显为止。这里有必要说一下

nk $n_k$ 。这是什么？
我们回到第一步

nk=∑Nj=1γjk $n_k=\sum_{j=1}^N\gamma_{jk}$ ，因为γ除了0就是1，求最大似然法时0就不用了。那么α这个公式就是（这个分模型的数）/（分模型总数）。

个人总结

个人认为：高斯混合模型GMM对于多中心点集合的建模。这种点集合最好是一堆一堆聚集在一起的，逼强迫症数据分析师想求聚类的。如下图。（数据集特性与k-means差不多，数据集别散得太厉害）。都属于原型聚类。
这里写图片描述
K-means的第一步开始是明确要聚几类（即K等于几），GMM第一步开始的明确是混合几个高斯模型（即N等于几）。