高斯混合模型与EM算法求解

最新推荐文章于 2023-03-06 09:46:34 发布

geriezmann

最新推荐文章于 2023-03-06 09:46:34 发布

阅读量854

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/adhkcnbk/article/details/124002617

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

高斯混合模型

文章目录

混合模型是一个用来表示在总体分布中含有K个子分布的概率模型，也就是说，混合模型表示了观测数据在总体中的概率分布，它由K个子分布组成的混合分布。

高斯混合模型可以看作是由K个单高斯模型组合而成的模型

定义如下：
在这里插入图片描述
高斯混合模型的概率分布为：

对于单高斯模型，可以用最大似然法估计参数 $\theta$ 的值

取对数，连乘转换为连加

对于高斯混合模型，对数似然则为：
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nNYGOpVg-1649256722048)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-09-28-47-image.png)]$

EM算法

例子：

EM算法详解+通俗例子理解_呆呆象呆呆的博客-CSDN博客_em算法实例

对于M个相互独立的样本 $x=(x^{(1)},x^{(2)},...,x^{(m)})$ ，对应的隐含数据 $z=(z^{(1)},z^{(2)},..,z^{(m)})$ ，此时 $(x, z)$ 为完全数据，则观测数据 $x^{(i)}$ 的概率为 $P(x^{(i)}|\theta)$ ，完全数据 $x^{(i)},z^{(i)})$ 的似然函数为 $P(x^{(i)},z^{(i)}|\theta)$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lDTY1jC6-1649256722050)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-10-00-22-image.png)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E88liqBe-1649256722051)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-10-03-03-image.png)]$

关于隐含数据分布 $Q_i(z^{(i)})$ ， $\sum_zQ_i(z)=1, Q_i(z)\in [0,1]$

可以把上式 $Q_i(z)$ 看成概率

用到了Jensen不等式

由 $J e n s e n$ 不等式可知，等式成立的条件是随机变量时常数，则有

对于任意的i，我们得到

方程两边同时累加和：

E步：计算联合分布的条件概率期望：

根据参数的初始值或上一次迭代的模型参数来计算隐含变量的后验概率，其实就是隐含变量的期望值。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cbqlZaK6-1649256722053)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-10-32-32-image.png)]$

M步：极大化 $L(\theta)$ ，得到 $\theta$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T53Ogy0r-1649256722054)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-10-36-24-image.png)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L90TdA4k-1649256722055)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-10-32-46-d2a44209f1135ecd93404299669b1ac.jpg)]$

首先我们固定 $\theta$ ，调整 $Q (z)$ 使下界 $J (z, Q)$ 上升至与 $L (θ)$ 在此点 $\theta$ 处相等，然后固定 $Q (z)$ ，调整 $\theta$ 使下界 $J (z, Q)$ 达到最大值 $\theta_t$

高斯混合模型参数估计

1、样本分类已知情况下的GMM

设样本容量为N，总类别为K，属于K个分类的样本数量分别是 $N_1,N_2,...,N_K$

属于第k个分类的样本集合为 $L (k)$

第k个类别的概率 $\alpha_k=\frac{N_k}{N}$

第k类的均值 $\mu_k = \frac{1}{N_k}\displaystyle\sum_{x\in L(x)}x$

第k类的协方差： $\Sigma_k = \frac{1}{N_k}\displaystyle\sum_{x\in L(x)}(x-\mu_k)(x-\mu_k)^T$

2、样本分类未知的情况下的GMM

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s8ZFWaAM-1649256722057)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-09-28-47-image.png)]$

论文中：

$logL(\theta)=\displaystyle\sum^N_{n=1}log\displaystyle\sum^K_{k=1}\pi_kN(R_n|0,\Sigma_k)$

$N$ 为样本的个数， $K$ 为子高斯的个数， $\pi_k$ 为混合系数， $R_n$ 为第n个样本的雨线

E步：

假设模型参数已知的情况下求隐含变量z，E步就是求R由各个子高斯生成的概率

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YrWULJSX-1649256722058)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-11-36-15-image.png)]$
$\gamma_{nk}$ 就是样本n属于第k个高斯的概率

M步：

属于第k个高斯的总个数（概率）:<img

属于第K类的期望：

                                          $\mu_k=\frac{1}{N_k}\displaystyle\sum^N_{n=1}\gamma_{nk}R_n$

属于第K类的方差：
通过最大似然调整每个高斯的均值方差。
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IfWdWdY7-1649256722060)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-11-45-26-image.png)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pgbgGvmL-1649256722061)(C:\Users\Administrator\AppData\Roaming\marktext\images\2022-03-31-12-02-38-fd8c41b1fc3a13f434a432e9aafe681.jpg)] -align="center">$

通过最大似然调整每个高斯的均值方差。

geriezmann

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
高斯混合模型与EM算法求解

高斯混合模型文章目录高斯混合模型EM算法高斯混合模型参数估计1、样本分类已知情况下的GMM2、样本分类未知的情况下的GMM混合模型是一个用来表示在总体分布中含有K个子分布的概率模型，也就是说，混合模型表示了观测数据在总体中的概率分布，它由K个子分布组成的混合分布。高斯混合模型可以看作是由K个单高斯模型组合而成的模型定义如下：高斯混合模型的概率分布为：对于单高斯模型，可以用最大似然法估计参数θ\thetaθ的值取对数，连乘转换为连加对于高斯混合模型，对数似然则为：EM算法例子：
复制链接

扫一扫

专栏目录