KMeans聚类算法思想与可视化

最新推荐文章于 2025-04-06 22:53:17 发布

wepon_

最新推荐文章于 2025-04-06 22:53:17 发布

阅读量5.4w

点赞数 23

分类专栏： Machine Learning 文章标签：机器学习 K均值聚类可视化

本文链接：https://blog.csdn.net/u012162613/article/details/47811235

版权

本文深入探讨KMeans聚类算法，包括概念、算法步骤、k值选取、初始质心选择、距离度量方法和算法实现。强调了算法对初始条件的敏感性，提供了Python代码实现和实例分析，展示了KMeans在手写数字数据集上的应用效果。同时，提到了二分KMeans算法作为改进方法，以解决局部最优问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类分析简称聚类（clustering），是一个把数据集划分成子集的过程，每一个子集是一个簇（cluster），使得簇中的样本彼此相似，但与其他簇中的样本不相似。

聚类分析不需要事先知道样本的类别，甚至不用知道类别个数，因此它是一种无监督的学习算法，一般用于数据探索，比如群组发现和离群点检测，还可以作为其他算法的预处理步骤。

下面的动图展示的是一个聚类过程，感受一下：

这里写图片描述

主要的聚类算法一般可以划分为以下几类：

方法	一般特点
划分方法	1.发现球形互斥的簇 2.基于距离 3.可用均值或中心点代表簇中心 4.对中小规模数据有效
层次方法	1.聚类是一个层次分解 2.不能纠正错误的合并或划分 3.可以集成其他技术
基于密度的方法	1.可以发现任意形状的簇 2.簇是对象空间中被低密度区域分隔的稠密区域 3.簇密度 4.可能过滤离群点
基于网格的方法	1.使用一种多分辨率网格数据结构 2.快速处理

.
上面的内容节选自韩家炜的《数据挖掘》，该书中的第十和第十一章对聚类算法进行了详细的介绍。等我详细学习后再对聚类分析做个总结，这篇文章则把重点放在简单的Kmeans算法上，Kmeans算法属于上面分类中的划分方法。

Kmeans算法(k均值算法)是一种简单的聚类算法，属于划分式聚类算法，当给定一个数据集D时，Kmeans算法的步骤如下：

选择K个点作为初始质心（随机产生或者从D中选取）  
repeat  
    将每个点分配到最近的质心，形成K个簇  
    重新计算每个簇的质心  
until 簇不发生变化或达到最大迭代次数

若n是样本数，m是特征维数，k是簇数，t是迭代次数，则Kmeans算法的时间复杂度为O(tknm)，与样本数量线性相关，所以在处理大数据集合时比较高效，伸缩性好。空间复杂度为O((n+k)*m)。

Kmens算法虽然一目了然，但算法实现过程中涉及到的细节也不少，下面逐一介绍。

k的值是用户指定的，表示需要得到的簇的数目。在运用Kmeans算法时，我们一般不知道数据的分布情况，不可能知道数据的集群数目，所以一般通过枚举来确定k的值。另外，在实际应用中，由于Kmean一般作为数据预处理，或者用于辅助分类贴标签，所以k一般不会设置很大。

Kmeans算法对初始质心的选取比较敏感，选取不同的质心，往往会得到不同的结果。初始质心的选取方法，常用以下两种的简单方法：一种是随机选取，一种是用户指定。
需要注意的是，无论是随机选取还是用户指定，质心都尽量不要超过原始数据的边界，即质心每一维度上的值要落在原始数据集每一维度的最小与最大值之间。

距离度量方法（或者说相似性度量方法）有很多种，常用的有欧氏距离，余弦相似度，街区距离，汉明距离等等。在Kmeans算法中，一般采用欧氏距离计算两个点的距离，欧氏距离如下：

d i s t E c l u d (X, Y) = \sum i = 1 n (X i -