EM算法（期望最大化）——从EM算法角度理解K-Means与GMM的区别

最新推荐文章于 2025-03-15 08:59:28 发布

红旗漫卷西风

最新推荐文章于 2025-03-15 08:59:28 发布

阅读量1.3w

点赞数 9

分类专栏：机器学习基础知识

本文链接：https://blog.csdn.net/tingyue_/article/details/70739671

版权

机器学习基础知识专栏收录该内容

7 篇文章

订阅专栏

本文介绍了K-Means聚类算法及其与高斯混合模型(GMM)的关系，阐述了如何通过最小化目标函数实现聚类，并讨论了K-Means作为GMM的一种特殊情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

K-Means算法简介

K-Means算法是一种常用的聚类算法，它认为由一组数据点构成的一个聚类中，聚类内部点之间的距离应该小于数据点与聚类外部的点之间的距离。假设我们有一组数据集 $\{x_1,...,x_N\}$ ，我们的目标是将数据集划分为 $K$ 个类别。为了解决这个问题，K-Means算法希望找到 $K$ 个聚类的中心 $\{\mu_k\},k=1,...,K$ ，同时根据数据点 $x_n$ 与各中心的距离大小，对数据点进行归类。

为了形式化地说明这个问题，我们定义一些符号：（1）由于存在 $K$ 个类别，则存在 $K$ 个聚类中心，我们定义聚类中心为心 $\{\mu_k\},k=1,...,K$ ；（2）对于每个数据点，K-Means的最终目的是为了将其归为 $K$ 类中的某一类，我们可定义一个指示函数 $\gamma_{nk} \in \{0,1\}$ 来表示第 $n$ 个数据点属于 $k = 1,..,K$ 中的哪一类：如果数据点 $x_n \in class(k) \Rightarrow \gamma_{nk} = 1$ ，否则 $\gamma_{nk} = 0$ 。

为了求解这一聚类问题，我们设置“整个数据集点到各自聚类中心的距离的平方和”为目标函数，即 $J = \sum_n\sum_k\gamma_{nk}(x_n-\mu_k)^2$ 。最小化目标函数： ${argmin}_{(\gamma_{nk},\mu_k)}J(\gamma_{nk},\mu_k)$ 使得聚类效果最佳。

由于在目标函数中存在变量 $\{\gamma_{nk},\mu_k\}$ ，同时求解是不可能的，我们采用一种迭代的方式来完成。

K-Means算法具体实现

其流程如下所示：
（1）初始化：为 $\{\mu_k\}$ 选取初值
（2）固定 $\{\mu_k\}$ ，关于 $\gamma_{nk}$ 最小化目标函数 $J$ ： $\gamma_{nk} =\left\{{1, if k = argmin_k(x_n - \mu_j)^2}\atop{0, otherwise} \right.$
（2）固定各数据点类别，关于 $\{mu_k\}$ 最小化目标函数 $J$ ：
$\frac\partial{\partial{\mu_k}}J = \sum_n\gamma_{nk}(x_n-\mu_k) = 0$
$\Rightarrow \mu_k = \frac{\sum_n\gamma_{nk}x_n}{\sum_n\gamma_{nk}}$

K-Means迭代步骤与EM算法的关系：
（2）（3）中分别更新 $\gamma_{nk},\mu_k$ 分别对应EM算法中的E步骤和M步骤。

K-Means算法与GMM（高斯混合模型）的EM解法的关系

对比K-Means算法和GMM的EM解法，我们会发现二者具有很强的相似性。K-Means算法对数据点的聚类进行了“硬分配”，即每个数据点只属于唯一的聚类；而GMM的EM解法则基于后验概率分布，对数据点进行“软分配”，即每个单独的高斯模型对数据聚类都有贡献，不过贡献值有大有小。
而其实，我们可以将K-Means算法归类为GMM的EM解法的一个特例：
考虑一个GMM（混合高斯模型），其中每个分量的协方差矩阵均为 $\epsilon{I}$ ，从而有 $p(x|\mu_k,\Sigma_k) = \frac1{(2\pi\epsilon)^{\frac{D}{2}}}exp(-\frac1{2\epsilon}||x_n-\mu_k||^2)$

E步骤：由之前GMM的EM解法知识可知：

$\gamma_{nk} = \frac{\pi_k\mathcal{N}(x_n|\mu_k,\Sigma_k)}{\sum_j{\pi_j\mathcal{N}(x_n|\mu_j,\Sigma_j)}} = \frac{\pi_{k}exp(-\frac1{2\epsilon}||x_n-\mu_k||^2)}{\sum_j{\pi_jexp(-\frac1{2\epsilon}||x_n-\mu_j||^2)}}$

当 $\epsilon\rightarrow0$ 时，在分母中只有 $||x_n-\mu_j||^2$ 最小时， $\pi_jexp(-\frac1{2\epsilon}||x_n-\mu_j||^2)$ 趋近于0的速度最慢，也就意味着它比其他项要大的多。所以有 $||x_n-\mu_j||^2 = min \Rightarrow \gamma_{nj}\rightarrow1;\forall m\not=j, \gamma_{nm}\rightarrow0$ 。在这种极限情况下，与K均值算法相同，我们得到了对数据点聚类的一个硬分配。

M步骤： $E_Z[X,Z|\pi,\mu,\Sigma] = \sum_n\sum_k\gamma_{nk}\{ln\pi_k + ln\mathcal{N}(x_n|\mu_k,\Sigma_k)\}$

当 $\epsilon\rightarrow0$ 时，则
$E_Z[X,Z|\pi,\mu,\Sigma] = \sum_n\sum_k\gamma_{nk}\{ln\pi_k + ln\mathcal{N}(x_n|\mu_k,\Sigma_k)\} = \sum_n\sum_k\gamma_{nk}ln\pi_k +\sum_n\sum_k(-\frac1{2\epsilon}||x_n-\mu_k||^2) \\ = \frac1{\epsilon}·(-\frac{1}{2}\sum_n\sum_k(\gamma_{nk}||x_n-\mu_k||^2)) + \sum_n\sum_k\gamma_{nk}ln\pi_k$

由于 $\pi_k$ 仅仅是聚类点在 $k$ 类中的比例，其值对于E步骤 $\gamma_{nk}$ 的确定不再起作用。所以只需要关于 $\mu_k$ 使得 $E_Z[X,Z|\pi,\mu,\Sigma]$ 最大，即，使得 $J = \sum_n\sum_k(\gamma_{nk}||x_n-\mu_k||^2)$ 最小；所以 $\mu_k = \frac{\sum_n\gamma_{nk}x_n}{\sum_n\gamma_{nk}}$ 。

从此可知，K-Means算法其实是GMM的EM解法在高斯分量协方差 $\epsilon I\rightarrow0$ 时的一个特例。

实际应用中，对于 K-means，我们通常是重复一定次数然后取最好的结果，但由于 GMM 每一次迭代的计算量比 K-means 要大许多，使用GMM时，一个更流行的做法是先用 K-means （已经重复并取最优值了）得到一个粗略的结果，然后将其作为初值（只要将 K-means 所得的聚类中心传给 GMM即可），再用 GMM 进行细致迭代。

相关文章：
EM算法（期望最大化）——理论部分http://blog.csdn.net/tingyue_/article/details/70474042
EM算法（期望最大化）——应用：GMM http://blog.csdn.net/tingyue_/article/details/70576025