GMM与EM算法的Python实现

最新推荐文章于 2021-06-08 21:08:34 发布

SofaSofa数据科学社区

最新推荐文章于 2021-06-08 21:08:34 发布

阅读量8.4k

点赞数 20

分类专栏： SofaSofa 数据科学机器学习 GMM EM

本文链接：https://blog.csdn.net/SofaSofa_io/article/details/89708552

版权

本文详细介绍了如何使用Python实现高斯混合模型（GMM）及其参数估计方法——最大期望算法（EM）。通过模拟数据，逐步展示了从变量初始化、E步骤、M步骤到迭代求解的全过程，帮助读者理解GMM和EM算法的工作原理。

摘要由CSDN通过智能技术生成

GMM与EM算法的Python实现

高斯混合模型(GMM)是一种常用的聚类模型，通常我们利用最大期望算法(EM)对高斯混合模型中的参数进行估计。

本教程中，我们自己动手一步步实现高斯混合模型。完整代码在第4节。

预计学习用时：30分钟。

本教程基于Python 3.6。

原创者：u_u | 修改校对：SofaSofa TeamM |

1. 高斯混合模型(Gaussian Mixture models, GMM)

高斯混合模型（Gaussian Mixture Model，GMM）是一种软聚类模型。
GMM也可以看作是K-means的推广，因为GMM不仅是考虑到了数据分布的均值，也考虑到了协方差。和K-means一样，我们需要提前确定簇的个数。

GMM的基本假设为数据是由几个不同的高斯分布的随机变量组合而成。如下图，我们就是用三个二维高斯分布生成的数据集。

在这里插入图片描述

在高斯混合模型中，我们需要估计每一个高斯分布的均值与方差。从最大似然估计的角度来说，给定某个有 $n$ 个样本的数据集 $X$ ，假如已知GMM中一共有 $k$ 簇，我们就是要找到 $k$ 组均值 $\mu_1,\cdots,\mu_k$ ， $k$ 组方差 $\sigma_1, \cdots, \sigma_k$ 来最大化以下似然函数 $\mathcal L$
$\mathcal L((\mu_1,\cdots,\mu_k), (\sigma_1, \cdots, \sigma_k);X).$