EM算法在GMM中的应用与python实现

最新推荐文章于 2023-10-13 16:17:54 发布

dhj_tsukuba

最新推荐文章于 2023-10-13 16:17:54 发布

阅读量1k

点赞数 2

分类专栏：算法文章标签：算法机器学习

本文链接：https://blog.csdn.net/dhj_tsukuba/article/details/110443282

版权

本文详细介绍了EM算法在高斯混合模型（GMM）中的应用，从混合高斯分布的概要、边缘概率和隐变量、后验概率、完整与不完整数据集的概念，到最大似然估计。接着，通过推导得出μ、Σ和π的最优解，并解释了EM算法在GMM参数估计中的步骤。最后，提到了Python代码实现的概述。

摘要由CSDN通过智能技术生成

一、混合高斯分布

1-1 GMM概要

在k-means中，每个数据样本属于某一个cluster，比如对于第1个数据，可以通过 $r_1=(0,1,0)$ 中的指示变量0,1来明确指出该数据属于哪个cluster。关于k-means可以参考我的另一篇博客。

在混合高斯分布(Gaussian Mixture Mode:GMM)中，每个数据样本也是属于某一个cluster，但它的指示变量不再是2元的01，而是用概率来表示，或者说用隐变量来表示。举个例子，数据 $x_1$ 对应的隐变量为 $z_1$ ，他的期望值可以表示为 $E[z_1]=(0.7, 0.2, 0.1)$ ，即 $0<=z_{1k}<=1$ 。

下面的推导中会用到以下数学符号：

$x$ : $D$ 维度的随机变量
$z$ : $k$ 维度的随机变量，也是模型的隐变量
$X = \{x_1, x_2, ..., x_N\}$ : $N$ 个数据观测数据
$K$ : cluster（聚类）的个数，已知

首先是GMM的概率密度函数：
$p(x|\pi,\mu,\Sigma) = \sum_{k=1}^K\pi_kN(x|\mu_k, \Sigma_k)$
可以明显看到，这是 $K$ 个高斯分布按比例加权求和的结果。下面用以3个1维高斯分布为例来说明：

import numpy as np
import matplotlib.pyplot as plt

K = 3
n = 301
mu = [-2, 0 ,2]
sigma = [0.5, 0.7, 1.5]
pi = [0.2, 0.3, 0.5]
intervals = np.linspace(-4, 7, n)

pdfs = np.zeros(shape = [n, K])
mix_pdf = np.zeros(shape = [n])
for k in range(K):
  pdfs[:, k] = pi[k] * 1/(np.math.sqrt(2*np.math.pi)*sigma[k]) * np.exp(-(intervals-mu[k])**2 / (2*sigma[k]**2))
  mix_pdf += pdfs[:, k]

plt.figure()
for k in range(K):
  plt.plot(np.linspace(-4,7,n), pdfs[:, k])
plt.show()

plt.figure()
plt.plot(intervals, mix_pdf, c = "r")
plt.show()

下图表示3个1维单高斯分布的概率密度函数（还没有混合），其每个高斯分量的分配比例为 $\pi=(0.2, 0.3, 0.5)$ , 该比例同时也是每个高斯分量的积分结果，也就是其包围的面积。
在这里插入图片描述
混合之后得到的混合高斯分布概率密度函数如下图所示，积分结果为1。

1-2 由边缘概率引出的隐变量

如果用 $p (x)$ 表示某一数据的分布，我们可以通过边缘概率的计算和乘法公式导出该 $p (x)$
$\sum^{}_{z}p(x,z)dz=\sum_{z}p(x|z)p(z)dz \space\space\space...(1)$
下面我们重点讨论一下这里的 $p (z)$ 和 $p (x ∣ z)$ .

首先我们引入变量 $z_k$ ，这里的 $z_k$ 可以参考k-means中的 $r_{nk}$ ，如果第 $n$ 个数据样本属于 $k$ 类，则 $r_{nk}=1$ ，而这里的 $z_k$ 用随机变量 ${0,1\}$ 表示， $z_k\in\{0,1\}$ 并且 $\sum_kz_k=1$
我们考虑隐变量集合 $z=\{z_1,z_2, ... z_k,...,z_K\}$ 中的 $z_k$ ， $z_k$ 为1 的概率由混合系数 $\pi_k$ 来决定：
$p(z_k=1)=\pi_k$
很明显， $\pi_k$ 满足 $0\leq\pi_k\leq1$ 以及 $\sum_{k=1}^{K}\pi_k=1$ ，那么 $p (z)$ 就可以表示为：
$p(z)=\prod_{k=1}^{K}\pi_k^{z_k}$

同时，在给定 $z$ 的条件下我们可以求得数据 $x$ 的条件概率分布，具体来讲，就是在给定条件 $z_k=1$ 的条件下， $x$ 服从第 $k$ 个(高维或者1维)高斯分布：
$p(x|z_k=1)=N(x|\mu_k,\Sigma_k)$
结合上面的 $p(z)=\prod_{k=1}^{K}\pi_k^{z_k}$ ，我们可以得到：
$p(x|z)=\prod_{k=1}^{K}N(x|\mu_k, \Sigma_k)^{z_k}$
将这里的 $p (z)$ ， $p (x ∣ z)$ 带入到(1)中，我们可以得到：
$p(x)=\sum_zp(x|z)p(z)dz=\sum_{k=1}^{K}\pi_kN(x|\mu_k, \Sigma_k)$
可以发现这个式子和混合高斯分布是一样的。

1-3 隐变量后验概率

我们可以通过 $p (z)$ 和 $p (x ∣ z)$ ，结合贝叶斯公式算出 $z$ 的后验概率 $p (z ∣ x)$ ，即可以通过观测数据 $x$ 得到 $z$ 的分布：
$p(z_k=1|x)=\frac{p(x, z_k=1)}{p(x)}=\frac{p(z_k=1)p(x|z_k=1)}{\sum_{j=1}^{K}p(z_j=1)p(x|z_j=1)}\\ =\frac{\pi_kN(x|\mu_k, \Sigma_k)}{\sum_{j=1}^K\pi_jN(x|\mu_j,\Sigma_j)}$

最低0.47元/天解锁文章

dhj_tsukuba

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
EM算法在GMM中的应用与python实现

文章目录一、混合高斯分布1-1 GMM概要1-2 由边缘概率引出的隐变量二、推导三、python代码实现一、混合高斯分布1-1 GMM概要在k-means中，每个数据样本属于某一个cluster，比如对于第1个数据，可以通过r1=(0,1,0)r_1=(0,1,0)r1=(0,1,0)中的指示变量0,1来明确指出该数据属于哪个cluster。关于k-means可以参考我的另一篇博客。在混合高斯分布(Gaussian Mixture Mode:GMM)中，每个数据样本也是属于某一个cluster.
复制链接

扫一扫