K-means聚类算法

最新推荐文章于 2024-09-06 21:20:53 发布

Pursue_yjj

最新推荐文章于 2024-09-06 21:20:53 发布

阅读量1.5k

点赞数 34

分类专栏：大学结课复习（论文）文章标签：算法 kmeans 聚类

本文链接：https://blog.csdn.net/qq_61153017/article/details/135282603

版权

8 篇文章

订阅专栏

本文介绍了使用K-Means算法对鸢尾花数据集进行聚类，评估了轮廓系数和调整兰德指数，发现初始化中心对聚类结果有显著影响。通过改变K值，研究了聚类数量对结果的影响。算法的优点和局限性也进行了讨论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

鸢尾花数据集是一个经典的机器学习数据集，包含150个样本，每个样本有4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度），共有3个目标类别（setosa、versicolor、virginica）。

选取了两个指标（内部指标和外部指标）对聚类算法进行评估

轮廓系数（Silhouette Coefficient）：轮廓系数度量聚类结果中每个样本的紧密度和分离度。它考虑了样本与其所属聚类的平均距离以及样本与最近邻聚类的平均距离。轮廓系数的取值范围在[-1, 1]之间，值越接近1表示聚类结果的紧密度和分离度较好。
调整兰德指数（ARI）：ARI是一种用于评估聚类结果的外部指标，它衡量了聚类结果与真实标签之间的相似度。ARI的取值范围在[-1, 1]之间，值越接近1表示聚类结果与真实标签越相似，值越接近0表示两者之间的相似度接近于随机，而值越接近-1表示聚类结果与真实标签之间的相反关系。

实验结果

本次实验的初始化中心的设置如下图所示

实验结果

实验结果

实验结果：

初始化第一个聚类中心：从数据集中随机选择一个样本作为第一个聚类中心。
计算每个样本与当前聚类中心之间的距离，并计算每个样本被选择为下一个聚类中心的概率。距离越远的样本被选中的概率越大，以确保聚类中心能够更好地分布在数据集中。
重复选择下一个聚类中心的过程，直到选择了k个聚类中心（k为预设的聚类数目）。在选择每个聚类中心时，使用加权概率的随机选择，以保证每个样本被选择为聚类中心的概率与其与最近的聚类中心的距离成正比。
使用选定的聚类中心进行标准的K-means迭代过程，包括样本分配到最近的聚类中心和更新聚类中心的步骤。
迭代步骤4，直到达到收敛条件（例如，聚类中心不再发生变化，或达到最大迭代次数）。

实验结果