K-Means聚类实验报告实例

小汤圆er9

已于 2023-01-04 23:24:55 修改

阅读量1.2w

点赞数 15

分类专栏： python笔记文章标签： python kmeans算法聚类数据挖掘人工智能

于 2021-11-25 23:56:18 首次发布

本文链接：https://blog.csdn.net/qq_50044753/article/details/121550427

版权

这篇实验报告详细介绍了使用K-Means算法对Water Quality dataset进行聚类的过程。首先，对数据进行预处理，通过肘部法则选择合适的K值。然后，利用PCA降维和K-Means模型进行聚类，结果显示聚类效果不理想，可能是由于属性相关性低。最后，更换数据集并重新训练，得到72.32%的标签重合率，表明K-Means对某些数据集的聚类效果良好。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.实验背景与问题提出

PS：寒假接高数辅导，操作系统辅导，数据结构辅导，有需要者评论或私信

聚类（clustering）是无监督学习（unsuperviserd learning）中研究和应用最多的一类学习算法，目的是将样本划分成若干个“簇”（cluster），每个“簇”之间尽量相异，每个簇之内的样本尽量相似。K-Means假设聚类结构能够通过一组原型（点）刻画，K-Means中的原型是指每个“簇”的质心，这个原型可以使得“簇”内的平方误差的加和达到最小，公式如下：

K-Means算法的目标是最小化聚类后“类”内的平方误差和，因为E值越小，“类”内的样本相似性越高。但是这个最小化过程是NP难问题，没有有效的算法，只能遍历所有可能的组合（“类”），当样本量较大时就是非常浪费资源甚至无解的。所以考虑使用贪心算法，即通过迭代优化来求近似解。

获得安全饮用水对健康至关重要，是一项基本人权，也是有效的健康保护政策的组成部分。在国家、区域和地方各级，这是一个重要的健康和发展问题。本次实验数据来源于Kaggle官网中的一个Water Quality dataset。原始数据集中有3276个样本，10个属性：ph, Hardness(硬度), Solids(总溶解固体量), Chloramines(氯胺含量), Sulfate(硫酸盐含量), Conductivity(电导率), Organic_carbon(有机碳含量), Trihalomethanes(三卤甲烷含量), Turbidity(浊度), Potability(可饮用性)，数据全为float或者int类型，Potability为只取0或1的标签，表示检测的水是否可饮用。本次实验旨在用Water Quality dataset训练KMeans模型，通过训练的模型实现对水质样本的分类。

2、解决思路

2.1 数据预处理

首先读取数据，查看数据的基本信息，发现多数列都存在空值，于是对空值进行删除。

2.2 聚类数K值选取

K-Means算法是聚类中的基础算法，也是无监督学习里的一个重要方法。其基本原理是随机确定k（人为指定）个初始点作为簇质心，然后将数据样本中的每一个点与每个簇质心计算距离，依据此距离对样本进行分配；之后将每次簇的质心更改为该簇内所有点的平均值。普通的K-Means算法因为初始簇质心的随机性，很可能会收敛到局部最优。为解决这一情况，可以随机初始化若干次，取最好结果，但这种方法在初始给定K值较大的情况下，可能只会得到比前一次好一点的结果（因为K值越大，簇质心越多，则随机性带来的不确定性越小。）

那么如何选取较为合适的K值呢？查阅资料，找到一种度量方法：各个簇内的样本点到所在簇质心的距离平方和（SSE），SSE越小则说明各个类簇越收敛。但并不是SSE越小越好，因为一种极端情况时将所有的样本点均视作簇，这样的话SSE为0，显然达不到分类的效果。我们要做的就是在类簇数量与SSE之间寻求一个平衡点。肘部法则为我们提供了这样的方法。肘部法则核心思想：随着聚类数K的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当K小于真实聚类数时，由于K的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当K到达真实聚类数时，再增加K所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着K值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的K值就是数据的真实聚类数。手肘法即为选取那个拐点。

（原文链接：

分析kMeans、二分K-Means算法及肘部法则_Starbeing的博客-CSDN博客_肘部法则）