EM算法在高斯混合模型中的应用-CSDN博客

摘自《统计学习方法》李航著清华大学出版社
链接：
EM介绍请点击这里

EM算法在高斯混合模型中的应用

EM算法的一个重要应用是高斯混合模型的参数估计。高斯混合模型应用广泛，在许多情况下，EM算法是学习高斯混合模型的有效方法。想详细理解单高斯模型和混合高斯模型请点击这里

高斯混合模型

定义

高斯混合模型是指具有如下形式的概率分布模型：

P(y|Θ)=∑Kk=1αϕ(y|Θk) $P(y|\varTheta) = \sum_{k=1}^{K}\alpha\phi(y|\varTheta_k) \qquad \qquad$ 公式（1）

ϕ(y|Θk)=12π√σkexp−(y−μk)22σ2k $\phi(y|\varTheta_k) = \frac{1}{\sqrt{2\pi}\sigma_k}\exp{-\frac{(y-\mu_k)^2}{2\sigma_k^2}} \qquad$ 公式（2）

其中， $\alpha$ 是系数， $\alpha\ge0$ ， $\sum_{k=1}^{K}\alpha_k=1$ ； $\phi(y | \varTheta_k)$ 是高斯分布密度， $\varTheta = (\mu_k, \sigma_k)$ 。公式（2）我们称为第K个分模型。

一般混合模型可以由任意概率分布密度代替公式（2）中的高斯分布密度，我们只介绍最常用的高斯混合模型。

高斯混合模型参数估计的EM算法

假设观测数据 $y_1, y_2, ..., y_N$ 由高斯混合模型生成，

P(y|Θ)=∑Kk=1ϕ(y|Θk) $P(y|\varTheta) = \sum_{k=1}^{K}\phi(y|\varTheta_k)\qquad$ 公式（3）

其中， $\varTheta = (\alpha_1, \alpha_2, ..., \alpha_k; \theta_1, \theta_2, ..., \theta_k)$ 。我们用EM算法估计高斯混合模型的参数 $\theta$ 。

明确隐变量，写出完全数据的对数似然函数

可以设想观测数据 $y_i$ ， $j=1, 2, ..., N$ ，是这样产生的：首先依概率 $\alpha_k$ 选择第 $k$ 个高斯分布分模型 $\phi(y|\theta_k)$ ；然后依第 $k$ 个分模型的概率分布 $\phi(y|\theta_k)$ 生成观测数据 $y_j$ 。这是观测数据 $y_j$ ， $j = 1,2,...,N$ ，是已只的；反映观测数据 $y_j$ 来自第 $k$ 个分模型的数据是未知的， $k=1,2,...,K$ ，以隐变量 $\gamma_{jk}$ 表示，其定义如下：

γ k = {1 第 j 个 观 察 来 自 第 k 个 分 模 型 0 否 则

$\gamma_k=\left\{ \begin{aligned} 1 \qquad第j个观察来自第k个分模型\\ 0 \qquad \qquad \qquad \qquad \qquad \ 否则 \end{aligned} \right.$

j=1,2,...,N;k=1,2,....,K $j = 1, 2, ..., N; k = 1, 2, ...., K$

$\qquad$ 公式（4）

其中 $\gamma_{jk}$ 是0-1随机变量。

有了观测数据 $y_j$ 及未观测数据 $\gamma_{jk}$ ，那么完全数据是

(yj,γj1,γj2,...,γjK)，j=1,2,...,N $(y_j, \gamma_{j1}, \gamma_{j2}, ..., \gamma_{jK})， j=1,2,...,N$

于是可以写出完全数据的似然函数：

P(y,γ|θ)=∏j=1NP(yj,γj1,γj2,...,γjk|θ) $P(y, \gamma|\theta) = \prod_{j=1}{N}P(y_j, \gamma_{j1}, \gamma_{j2}, ..., \gamma_{jk}|\theta)\qquad \qquad \qquad \quad$

=∏Kk=1∏Nj=1[αkϕ(yj|θk)]γjk $=\prod_{k=1}^{K}\prod_{j=1}^{N}[\alpha_k\phi(y_j|\theta_k)]^{\gamma^{jk}} \qquad \qquad \quad \ \,$

=∏Kk=1αnk∏Nj=1[ϕ(yj|θk)]γjk $=\prod_{k=1}^{K}\alpha^{n_k}\prod_{j=1}^{N}[\phi(y_j|\theta_k)]^{\gamma_{jk}} \qquad \qquad \ \ \,$

=∏αnkk∏Nj=1[12π√σkexp(−(yj−μk)22σ2k)]γjk $=\prod\alpha_{k}^{n_k}\prod_{j=1}^{N}[\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(y_j-\mu_k)^2}{2\sigma_k^2})]^{\gamma_{jk}}\ \$

式中， $n_k = \sum_{j=1}^{N}\gamma_{jk}$ ， $\sum_{k=1}^{K}n_k=N$
公式注释：
上述第二个等号为什么成立？我们思考一下。在上节EM算法介绍中，我们在硬币例题介绍了

P(y|θ)=∑zP(y,z|θ)=∑zP(z|θ)P(y|z,θ) $P(y|\theta) = \sum_{z}P(y,z|\theta) = \sum_{z}P(z|\theta)P(y|z,\theta)$

现在，我们来对应一下。 $P(z|\theta)$ 对应高斯混合模型的 $P(\gamma_{jk}|\theta)$ ，也就是 $\alpha_k$ 。在第 $k$ 个模型的情况下，观测值 $y_i$ 属于第 $k$ 个模型的概率是 $\phi(yj|θk)$ ，也就是 $\phi(y|\varTheta_k) = \frac{1}{\sqrt{2\pi}\sigma_k}\exp{-\frac{(y-\mu_k)^2}{2\sigma_k^2}}$ ，然而不只是由k这种模型，还有1~K个模型，所以是每个模型算出概率后相乘。注意 $\gamma_{jk}$ 的值不是1就是0，所以当 $y_i$ 不属于第 $k$ 类的时候，任何数的0次方为1。当当 $y_i$ 属于第 $k$ 类的时候， $\gamma_{jk}$ 的值为1，任何数的1次方还是其本身。

那么，完全数据的对数似然函数为:

logP(y,γ|θ)=∑Kk=1nk{logαk+∑Nj=1γjk[log(12π√)−logσk−12σ2k(yj−μk)2]} $\log{P(y,\gamma|\theta)} = \sum_{k=1}^{K}n_k\{\log{\alpha_k} + \sum_{j=1}^{N}\gamma_{jk}[log({\frac{1}{\sqrt{2\pi}}) - } log{\sigma_k} - \frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}$

EM算法的E步：确定Q函数

Q(θ,θ(i))=E(logP(y,γ|θ)|y,θ(i)) $Q(\theta, \theta^{(i)}) = E(\log{P(y, \gamma|\theta)|y, \theta^{(i)}}) \qquad \qquad \qquad\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad$

=E{∑Kk=1{nklogαk+∑Nj=1γjk[log12π√−logσk−12σ2k(yj−μk)2]}} $=E\{ \sum_{k=1}^{K} \{ n_k\log{\alpha_k} + \sum_{j=1}^{N}\gamma_{jk} [\log{\frac{1}{\sqrt{2\pi}}} - \log{\sigma_k} - \frac{1}{2\sigma_k^2}(y_j-\mu_k)^2] \}\} \qquad \qquad \quad$

=∑Kk=1{∑Nj=1(Eγjk)logαk+∑Nj=1(Eγrk)[log(1(√2π))−logσk−12σ2(yj−μk)2]} $=\sum_{k=1}^{K} \{ \sum_{j=1}^{N} (E\gamma_{jk}) \log{\alpha_k} + \sum_{j=1}^{N} (E\gamma_{rk}) [ \log(\frac{1}{\sqrt(2\pi)}) - \log{\sigma_k} - \frac{1}{2\sigma^2}(y_j-\mu_k)^2] \} \,$

公式（4）

从第2个等号到第3个等号这里涉及到一些期望的知识，以图片的形式补充到下面。

资料来源：http://www.360doc.com/content/13/1124/03/9482_331690142.shtml

这里需要计算 $E(\gamma_{jk}|y,\theta)$ ，记为 $\gamma_{jk}^{`}$ 。

γjk‘=E(γjk|y,θ)=P(γrk=1|y,θ) $\gamma_{jk}{`} = E(\gamma_{jk}|y,\theta) = P(\gamma_{rk} = 1|y, \theta) \qquad \qquad \qquad$

=P(γ=1,yj|θ)∑Kk=1P(γjk=1,yj|θ) $=\frac{P(\gamma = 1, y_j|\theta)}{\sum_{k=1}^{K}P(\gamma_{jk} = 1, y_j|\theta)} \qquad \qquad \qquad \qquad \quad \$

=P(yj|γjk=1,θ)P(γjk=1|θ)∑Kk=1P(yj|γjk=1,θ)P(γjk=1|θ) $=\frac{P(y_j|\gamma_{jk} = 1, \theta) P(\gamma_{jk} = 1| \theta)}{\sum_{k=1}^{K}P(y_j|\gamma_{jk}=1,\theta) P(\gamma_{jk} = 1|\theta)} \qquad \qquad\quad\ \$

=αkϕ(yj|θk)∑Kk=1αkϕ(yj|θk) $=\frac{\alpha_k\phi(y_j|\theta_k)}{\sum_{k=1}^{K}\alpha_k\phi(y_j|\theta_k)} \quad$ j=1, 2,…, N; k = 1, 2, …, K

$\gamma_{jk}^{`}$ 是在当前模型参数下第j个观测数据来自第 $k$ 个分模型的概率，称为分模型 $k$ 对观测数据 $y_j$ 的响应度。
将 $\gamma_{jk}^{`} = E_{\gamma_{jk}}$ 及 $n_k=\sum_{j=1}^{N}E_{\gamma_{jk}}$ 代入公式（4）（确定Q函数的公式），即可获得

Q(θ,θ(i))=∑Kk=1{nklogαk+∑Nk=1γ‘jk[log(12π√)−logσk−12σ2k(yj−μk)2]} $Q(\theta,\theta^{(i)}) = \sum_{k=1}^{K} \{ n_k \log{\alpha_k} + \sum_{k=1}^{N}\gamma_{jk}^{`} [\log(\frac{1}{\sqrt{2\pi}}) - \log{\sigma_k - \frac{1}{2\sigma_k^2} (y_j-\mu_k)^2}]\} \qquad$ 公式（5）

确定EM算法的M步

迭代的M步是求函数 $Q(\theta, \theta^{(i)})$ 对 $\theta$ 的极大值，即求新一轮迭代的模型参数：

θ(i+1)=argmaxQ(θ,θ(i)) $\theta^{(i+1)} = \arg{\max{Q(\theta, \theta^{(i)})}}$

用 $\hat{\mu_k}, \hat{ \sigma^{2}_k}$ 及 $\hat{\alpha_k}$ ， $k=1,2,...,K$ ，表示 $\theta^{(i+1)}$ 的各个参数。求 $\hat{\mu_k}$ ， $\hat{\sigma_k^2}$ 只需将公式（5）分别对 $\hat{\mu_k}$ ， $\hat{\sigma_k^2}$ 求偏导数并令其为0，即可得到；求 $\hat{\alpha_k}$ 是在 $\sum_{k=1}^{K}\alpha_k = 1$ 条件下求偏导并令其为0得到的。其结果如下所示：

μk^=∑Nj=1γjkyj^∑Nj=1γjk^k=1,2,...,K $\hat{\mu_k} = \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}y_j}}{\sum_{j=1}^{N}\hat{\gamma_{jk}}} \qquad \qquad k = 1, 2, ..., K \qquad$ 公式（6）

σ2k^=∑Nj=1γjk^(yi−uk)2∑Nj=1γjk^k=1,2,...,K $\hat{\sigma_k^2} = \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}}(y_i-u_k)^2}{\sum_{j=1}^{N}\hat{\gamma_{jk}}} \qquad k = 1,2,...,K \quad \ \ \$ 公式（7）

αk^=nkN=∑Nj=1γjk^Nk=1,2,...,K $\hat{\alpha_{k}} = \frac{n_k}{N} = \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}}}{N} \qquad k=1,2,...,K \quad \ \ \,\$ 公式（7）

重复以上计算，直到对数似然函数值不再有明显变化为止。

算法总结

输入：观测数据 $y_1,y_2,...,y_N$ ，高斯混合模型；
输出：高斯混合模型参数；
步骤：
（1）取参数的初始值开始迭代
（2）E步：依据当前模型参数，计算分模型k对观测数据 $y_i$ 的响应度

γk^=αkϕ(yj|θk)∑Kk=1αkϕ(yj|θk)j=1,2,...,N; k=1,2,...,K $\hat{\gamma_k} = \frac{\alpha_k\phi(y_j|\theta_k)}{\sum_{k=1}^{K}\alpha_k\phi(y_j|\theta_k)} \qquad j=1,2,...,N; \ k=1,2,...,K$

（3）M步：计算新一轮迭代的模型参数:

μk^=∑Nj=1γjkyj^∑Nj=1γjk^k=1,2,...,K $\hat{\mu_k} = \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}y_j}}{\sum_{j=1}^{N}\hat{\gamma_{jk}}} \qquad \qquad k = 1, 2, ..., K \qquad$

σ2k^=∑Nj=1γjk^(yi−uk)2∑Nj=1γjk^k=1,2,...,K $\hat{\sigma_k^2} = \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}}(y_i-u_k)^2}{\sum_{j=1}^{N}\hat{\gamma_{jk}}} \qquad k = 1,2,...,K \quad \ \ \$