python中kmeans中k怎么取值_k-means实现聚类及聚类效果指标 k值选择方法

最新推荐文章于 2024-08-11 16:00:02 发布

weixin_39756696

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量1.9k

点赞数 1

文章标签： python中kmeans中k怎么取值

本文介绍了K-means聚类算法的步骤、聚类效果的评价指标，如inertias、兰德指数、互信息等，并通过肘部方法展示如何选择合适的K值。此外，还提供了Python实现K-means聚类的示例，并展示了聚类可视化和相关性能指标的计算。

摘要由CSDN通过智能技术生成

聚类指的是把集合，分组成多个类，每个类中的对象都是彼此相似的。K-means是聚类中最常用的方法之一，它是基于点与点距离的相似度来计算最佳类别归属。

在使用该方法前，要注意(1)对数据异常值的处理；(2)对数据标准化处理(x-min(x))/(max(x)-min(x))；(3)每一个类别的数量要大体均等；(4)不同类别间的特质值应该差异较大

一、K-means聚类步骤：

(1)选择k个初始聚类中心

(2)计算每个对象与这k个中心各自的距离，按照最小距离原则分配到最邻近聚类

(3)使用每个聚类中的样本均值作为新的聚类中心

(4)重复步骤(2)和(3)直到聚类中心不再变化

(5)结束，得到k个聚类

二、评价聚类的指标：

(1)inertias：是K-Means模型对象的属性，它作为没有真实分类结果标签下的非监督式评估指标。表示样本到最近的聚类中心的距离总和。值越小越好，越小表示样本在类间的分布越集中。

(2)兰德指数：兰德指数(Rand index)需要给定实际类别信息C，假设K是聚类结果，a表示在C与K中都是同类别的元素对数，b表示在C与K中都是不同类别的元素对数，则兰德指数为：

RI取值范围为[0,1]，值越大意味着聚类结果与真实情况越吻合。

对于随机结果，RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下，指标应该接近零”，调整兰德系数(Adjusted rand index)被提出，它具有更高的区分度：

ARI取值范围为[−1,1]，值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲，ARI衡量的是两个数据分布的吻合程度。

(3)互信息(Mutual Information，MI)：指的是相同数据的两个标签之间的相似度，即也是在衡量两个数据分布的相似程度。利用互信息来衡量聚类效果需要知道实际类别信息。

假设U与V是对N个样本标签的分配情况，则两种分布的熵分别为：

，其中

最低0.47元/天解锁文章

weixin_39756696

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python中kmeans中k怎么取值_k-means实现聚类及聚类效果指标 k值选择方法

聚类指的是把集合，分组成多个类，每个类中的对象都是彼此相似的。K-means是聚类中最常用的方法之一，它是基于点与点距离的相似度来计算最佳类别归属。在使用该方法前，要注意(1)对数据异常值的处理；(2)对数据标准化处理(x-min(x))/(max(x)-min(x))；(3)每一个类别的数量要大体均等；(4)不同类别间的特质值应该差异较大一、K-means聚类步骤：(1)选择k个初始聚类中心(2...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。