21-高斯混合模型-GMM(Gaussian Mixture Model)

最新推荐文章于 2024-04-19 10:23:42 发布

取个名字真难呐

最新推荐文章于 2024-04-19 10:23:42 发布

阅读量1.2k

点赞数 1

分类专栏： pytorch

本文链接：https://blog.csdn.net/scar2016/article/details/118241817

版权

pytorch 专栏收录该内容

148 篇文章 25 订阅

订阅专栏

文章目录

1.高斯混合模型GMM的定义
1.1高斯混合模型GMM的几何表示
1.2高斯混合模型GMM的模型表示
2.高斯混合模型的极大似然估计
- 2.1 数据样本的定义
3.高斯混合模型GMM(EM期望最大算法求解)

1.高斯混合模型GMM的定义

高斯混合模型中的高斯就是指的是高斯分布，顾名思义，就是多个高斯分布组成的混合模型。由中心极限定理可得，把数据看作成高斯分布是比较合理的做法。高斯混合模型的产生是因为数据在非常复杂的情况下，我们无法通过单个高斯模型进行拟合，只能够通过通过多个高斯进行不同权重的拟合才行。这样就产生了高斯混合模型

1.1高斯混合模型GMM的几何表示

在这里插入图片描述
从几何角度来看是比较简单的，当数据由高斯分布N1和高斯分布N2组成的，那么高斯分布N3可以看作是两个高斯分布加权平均来组成的。
$P(x)=\sum_{k=1}^K\alpha_kN(\mu_k,\Sigma_k),\sum_{k=1}^K\alpha_k=1\tag1$

$\alpha_k:表示每个高斯分布在整个高斯分布的权重$

1.2高斯混合模型GMM的模型表示

我们知道当数据两维以上时，那么数据的概率密度函数就是一个高斯曲面，无法用曲线表示，所以我们只能用等高线来表示相关数据。那么对于下图来说，样本 $X_k$ 既属于N1，也属于N2,只是我们看起来属于N1的概率更大。
在这里插入图片描述
我们定义样本数据如下：

X:observed data 观测数据；
Z:latent data 隐变量数据;表示对应的样本X是属于哪一个高斯分布的；
我们引入的Z是为了表示数据X属于哪一个分布，所以可知Z是离散型随机变量。且假设Z满足如下分布：
$\sum_{k=1}^KP_k=1$
那么对于样本数据X来说，我们可以引入一个变量Z，那么数据生成可以用两步来表示：
用Z分布来表示该样本属于哪一个高斯分布 $C_k$
当选定了第 $C_k$ 高斯分布后，再在高斯分布中采样数据X；
具体形象描述为：
假设我们有一个骰子，这个骰子的K个面被不同比例的油漆涂上，我们随机投掷骰子，那么我们就有K个高斯分布，我们每次投一个骰子时，就会出现第K个面，然后我们在第K个面中采样数据X。这样就可以通过两个步骤来进行合成数据X；这个过程重复N次就是高斯混合模型的生成方式。
概率图：
参数P用实心点表示

2.高斯混合模型的极大似然估计

2.1 数据样本的定义

为了方便后续的表示，我们定义如下参数：

X:observed data 观测数据 $X=(x_1,x_2,...,x_N)$
Z:latent data 隐变量 $Z=(z_1,z_2,...,z_N)$
(X,Z)：complete data 完整数据 $X,Z)=\{(x_1,z_1),(x_2,z_2),...,(x_N,z_N),\}$
$\theta:parameter 参数:\theta=\{P_1,P_2,...,P_k,\mu_1,\mu_2,...,\mu_k,\Sigma_1,\Sigma_2,...,\Sigma_k\}$

对于已知数据X，为了搞清楚高斯混合模型的相关参数，我们首先想到的是极大似然估计法MLE。我们的目标是为了找到一组参数 $\theta$ ，使得参数 $\theta$ 能够让 $\log P(X|\theta)$ 取得最大值；
$\hat{\theta}=\mathop{\arg\max}\limits_{\theta}\log P(X|\theta) \tag 2$
由边缘概率P(X)和联合概率P(X,Z)的关系可得：

$P(X)=\sum_{Z}P(X,Z)=\sum_{k=1}^{K}P(X,Z=C_k)=\sum_{k=1}^{K}P(Z=C_k)·P(X|Z=C_k)\tag 3$

$Z是满足离散概率分布，即：P(Z=C_k)=P_k$
$P(X|Z=C_k)满足高斯分布，即：P(X|Z=C_k)=N(x_i|\mu_k,\Sigma_k)$
$P(X)=\sum_{k=1}^{K}P_k·N(x_i|\mu_k,\Sigma_k)\tag 4$
所以目标函数可以表示如下：
$\hat{\theta}_{MLE}=\mathop{\arg\max}\limits_{\theta}\log P(X|\theta)=\mathop{\arg\max}\limits_{\theta}\log \prod_{i=1}^{N}P(x_i|\theta)=\mathop{\arg\max}\limits_{\theta} \sum_{i=1}^{N}\log P(x_i|\theta)\tag 5$
$\hat{\theta}_{MLE}=\mathop{\arg\max}\limits_{\theta} \sum_{i=1}^{N}\log [\sum_{k=1}^{K}P_k·N(x_i|\mu_k,\Sigma_k)]\tag 6$
$\theta:parameter 参数:\theta=\{P_1,P_2,...,P_k,\mu_1,\mu_2,...,\mu_k,\Sigma_1,\Sigma_2,...,\Sigma_k\}$

之前我们在求高斯分布的极大似然估计的时候，因为单个的高斯分布概率密度函数是：
$\log P(x_i|\theta)=\log [\frac{1}{\sqrt{2\pi}\sigma}·exp^{(-\frac{(x-\mu)^2}{2\sigma^2})} ]\tag 7$
由上式可以看出，当我们使用对数函数时，因为单个高斯分布里面是一个乘积的形式，那么我们取对数后可以变成两个式子的和，所以可以把上述公式进行分割求导，简化运算。但是对于高斯混合模型来说公式<6>，发现属于如下求和形式：
$\hat{\theta}_{MLE}=\mathop{\arg\max}\limits_{\theta} \sum_{i=1}^{N}\log [\triangle_1+\triangle_2,...,\triangle_N]\tag 8$
那么就无法进行分割上述公式，所以我们直接对高斯混合模型来说，直接用极大似然估计是行不通的，没法进行下去了。为了解决这个问题，我们引入之前的EM期望最大算法来求解高斯混合模型GMM。EM算法的目的不就是为了求期望最大嘛，所以这里用EM算法就情理之中了。

3.高斯混合模型GMM(EM期望最大算法求解)

3.1 EM算法(E-Step)

我们发现用极大似然估计法无法求得数据X的参数 $\theta$ ，所以我们用之前讲解的EM期望最大算法进行迭代求解参数 $\theta$ ：
EM算法公式如下：
$\theta^{(t+1)}=\mathop{\arg\max}\limits_{\theta}\mathbb{E}_{Z\sim \{Z|X,\theta^{(t)}\}}\log P(X,Z|\theta)\tag{9}$

$我们定义：Q(\theta,\theta^{(t)})=\mathbb{E}_{Z\sim \{Z|X,\theta^{(t)}\}}\log P(X,Z|\theta)$

首先我们对 $Q(\theta,\theta^{(t)})$ 进行展开表达：

$Q(\theta,\theta^{(t)})=\mathbb{E}_{Z\sim \{Z|X,\theta^{(t)}\}}\log P(X,Z|\theta)$

将期望转换成积分形式可得：

$\quad=\int_Z \log P(X,Z|\theta)·P(Z|X,\theta^{(t)})dZ$

由于数据X之间是独立同分布的，所以可变成如下：

$\quad=\int_Z \log \prod_{i=1}^{N}P(x_i,z_i|\theta)·\prod_{i=1}^{N} P(z_i|x_i,\theta^{(t)})dZ$

展开后可得：

$\quad=\int_Z [ \log P(x_1,z_1|\theta)+..+\log P(x_i,z_i|\theta)]·\prod_{i=1}^{N}P(z_i|x_i,\theta^{(t)})dZ$

为了简化上述公式，我们首先对其中一项式子进行简化：

$\quad\int_Z [ \log P(x_1,z_1|\theta)]·\prod_{i=1}^{N}P(z_i|x_i,\theta^{(t)})dZ$

将Z分解成 $Z_1,Z_2,...,Z_N$

$\quad\int_{Z_1,Z_2,...,Z_N} [ \log P(x_1,z_1|\theta)]·\prod_{i=1}^{N}P(z_i|x_i,\theta^{(t)})dZ$

$\quad=\int_{Z_1} [ \log P(x_1,z_1|\theta)]·P(z_1|x_1,\theta^{(t)})dZ_1·\underbrace{\int_{Z_2}P(z_2|x_2,\theta^{(t)}) dZ_2}_{=1}·...\underbrace{\int_{Z_N}P(z_N|x_N,\theta^{(t)}) dZ_N}_{=1}$

$\quad=\int_{Z_1} [ \log P(x_1,z_1|\theta)]·P(z_1|x_1,\theta^{(t)})dZ_1$

因为Z为离散型变量，故积分可转换成如下：

$\quad=\sum_{Z_1} [ \log P(x_1,z_1|\theta)]·P(z_1|x_1,\theta^{(t)})$

所以：

$Q(\theta,\theta^{(t)})=\sum_{Z_1} [ \log P(x_1,z_1|\theta)]·P(z_1|x_1,\theta^{(t)})+...+\sum_{Z_N} [ \log P(x_N,z_N|\theta)]·P(z_N|x_N,\theta^{(t)})$

整理上式公式可得：

$Q(\theta,\theta^{(t)})=\sum_{i=1}^{N}\sum_{Z_i} [ \log P(x_i,z_i|\theta)]·P(z_i|x_i,\theta^{(t)})\tag{10}$

那么我们接下来的步骤是将高斯混合模型嵌入到上式EM算法中。即将上述公式的 $\log P(x_i,z_i|\theta)和P(z_i|x_i,\theta^{(t)})$ 用高斯混合模型的相关概率进行表示即可

3.2 EM算法(E-Step-高斯混合模型代入)

对于高斯混合模型来说：我们定义如下参数：

X:observed data 观测数据 $X=(x_1,x_2,...,x_N)$
Z:latent data 隐变量 $Z=(z_1,z_2,...,z_N)$
(X,Z)：complete data 完整数据 $X,Z)=\{(x_1,z_1),(x_2,z_2),...,(x_N,z_N),\}$
$\theta:parameter 参数:\theta=\{P_1,P_2,...,P_k,\mu_1,\mu_2,...,\mu_k,\Sigma_1,\Sigma_2,...,\Sigma_k\}$

我们在上面已经得出如下结论：
$P(X)=\sum_{k=1}^{K}P_k·N(x_i|\mu_k,\Sigma_k)\tag {11}$
又由于贝叶斯公式 ${P(X,Z)=P(Z)·P(X|Z)\}$ ，且： $P(Z)=P_z;P(X|Z)=N(X|\mu_z,\Sigma_k)$ 故：
$P(X,Z)=P_Z·N(X|\mu_z,\Sigma_k)\tag {12}$
$因为贝叶斯公式可得： P (Z ∣ X) = P (X, Z) / P (X) ，代入上式可得：$
$P(Z|X,\theta^{(t)})=\frac{P(X,Z,\theta^{(t)})}{P(X,\theta^{(t)})}=·\frac{P_{Z_i}^{\theta^{(t)}}·N(x_i|\mu_{Z_i}^{\theta^{(t)}},\Sigma_{Z_i}^{\theta^{(t)}})}{\sum_{k=1}^{K}P_k^{\theta^{(t)}}·N(x_i|\mu_k^{\theta^{(t)}},\Sigma_k^{\theta^{(t)}})}\tag {13}$
将此时算出来的 $P(Z|X)和P(X,Z)代入到之前公式Q(\theta,\theta^{(t)})中可得：$
$Q(\theta,\theta^{(t)})=\sum_{i=1}^{N}\sum_{Z_i} \log [P_{Z_i}·N(x_i|\mu_z,\Sigma_k)]·\frac{P_{Z_i}^{\theta^{(t)}}·N(x_i|\mu_{Z_i}^{\theta^{(t)}},\Sigma_{Z_i}^{\theta^{(t)}})}{\sum_{k=1}^{K}P_k^{\theta^{(t)}}·N(x_i|\mu_k^{\theta^{(t)}},\Sigma_k^{\theta^{(t)}})}\tag{14}$

3.2 EM算法(M-Step)

我们已经求得了EM算法中的E-Step 得到 $Q(\theta,\theta^{(t)})$ ,现在只要求最大值即可：
$\theta^{(t+1)}=\mathop{\arg\max}\limits_{\theta}\mathbb{E}_{Z\sim \{Z|X,\theta^{(t)}\}}\log P(X,Z|\theta)=\mathop{\arg\max}\limits_{\theta}Q(\theta,\theta^{(t)})\tag{15}$
整理上式可得：
$\theta^{(t+1)}=\mathop{\arg\max}\limits_{\theta}\sum_{i=1}^{N}\sum_{Z_i} \log [P_{Z_i}·N(x_i|\mu_z,\Sigma_k)]·\underbrace{\frac{P_{Z_i}^{\theta^{(t)}}·N(x_i|\mu_{Z_i}^{\theta^{(t)}},\Sigma_{Z_i}^{\theta^{(t)}})}{\sum_{k=1}^{K}P_k^{\theta^{(t)}}·N(x_i|\mu_k^{\theta^{(t)}},\Sigma_k^{\theta^{(t)}})}}_{P(Z_i|X_i,\theta^{(t)})}\tag{16}$
$\theta^{(t+1)}=\mathop{\arg\max}\limits_{\theta}\sum_{i=1}^{N}\sum_{Z_i} \log [P_{Z_i}·N(x_i|\mu_z,\Sigma_k)]·{P(Z_i|X_i,\theta^{(t)})}\tag{17}$
求和符号交换位置
$=\mathop{\arg\max}\limits_{\theta}\sum_{Z_i}\sum_{i=1}^{N} \log [P_{Z_i}·N(x_i|\mu_z,\Sigma_k)]·{P(Z_i|X_i,\theta^{(t)})} \tag{18}$
将 $\sum_{Z_i}分解$
$\theta^{(t+1)}=\mathop{\arg\max}\limits_{\theta}\sum_{k=1}^K\sum_{i=1}^{N} \log [P_{k}·N(x_i|\mu_z,\Sigma_k)]·{P(Z_i=C_k|X_i,\theta^{(t)})} \tag{19}$
$\theta^{(t+1)}=\mathop{\arg\max}\limits_{\theta}\sum_{k=1}^K\sum_{i=1}^{N} [\log P_{k}+\log N(x_i|\mu_z,\Sigma_k)]·{P(Z_i=C_k|X_i,\theta^{(t)})} \tag{20}$
我们求解的方式是通过不断地迭代求解相关参数：
$\theta^{(t+1)}=\{P_1^{(t+1)},P_2^{(t+1)},...,P_k^{(t+1)},\mu_1^{(t+1)},\mu_2^{(t+1)},...,\mu_k^{(t+1)},\Sigma_1^{(t+1)},\Sigma_2^{(t+1)},...,\Sigma_k^{(t+1)}\}\tag{21}$
对于公式(20)来说，当我们求解 $P_k^{(t+1)}$ 时，我们可以把 $\log N(x_i|\mu_z,\Sigma_k)$ 看作无关项，可以忽略它。
$P_k^{(t+1)}=\mathop{\arg\max}\limits_{P_k}\sum_{k=1}^K\sum_{i=1}^{N} [\log P_{k}]·{P(Z_i=C_k|X_i,\theta^{(t)})} \tag{22}$
$\sum_{k=1}^K P_k=1\tag{22}$
将上述带约束的最值问题转换成拉格朗日函数：
$P(L,\lambda)=\sum_{k=1}^K\sum_{i=1}^{N} [\log P_{k}]·{P(Z_i=C_k|X_i,\theta^{(t)})}+\lambda( \sum_{k=1}^K P_k-1)\tag{23}$
$\frac{\partial P(L,\lambda)}{\partial P_k}=\sum_{i=1}^{N}\frac{1}{P_k}·{P(Z_i=C_k|X_i,\theta^{(t)})}+\lambda=0\tag{24}$
$\sum_{i=1}^{N}{P(Z_i=C_k|X_i,\theta^{(t)})}+\lambda P_k=0\tag{25}$
将 k=1,2,…K组成的等式进行求和可得：
$\sum_{i=1}^{N}\underbrace{\sum_{i=1}^{K}{P(Z_i=C_k|X_i,\theta^{(t)})}}_{=1}+\lambda\underbrace{\sum_{i=1}^{K} P_k}_{=1}=0\tag{26}$
$N+\lambda=0\rightarrow \lambda=-N\tag{27}$
将求得的 $\lambda$ 代入到公式25中可得：
$\sum_{i=1}^{N}{P(Z_i=C_k|X_i,\theta^{(t)})}-N P_k=0\tag{28}$
$P_k^{(t+1)}=\frac{1}{N}\sum_{i=1}^{N}{P(Z_i=C_k|X_i,\theta^{(t)})}\tag{29}$
所以我们能估算参数：
$P_k^{(t+1)}=\{P_1^{(t+1)},P_2^{(t+1)},...,P_K^{(t+1)}\}\tag{30}$
同理，我们只需要按照上述方式即可求得其他参数的估计值；后面再补充吧。

取个名字真难呐

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
21-高斯混合模型-GMM(Gaussian Mixture Model)

文章目录1.高斯混合模型GMM表示1.1高斯混合模型GMM的几何表示1.2高斯混合模型GMM的模型表示1.高斯混合模型GMM表示高斯混合模型中的高斯就是指的是高斯分布，顾名思义，就是多个高斯分布组成的混合模型。由中心极限定理可得，把数据看作成高斯分布是比较合理的做法。高斯混合模型的产生是因为数据在非常复杂的情况下，我们无法通过单个高斯模型进行拟合，只能够通过通过多个高斯进行不同权重的拟合才行。这样就产生了高斯混合模型1.1高斯混合模型GMM的几何表示从几何角度来看是比较简单的，当数据由高斯分布N1
复制链接

扫一扫