回归与聚类——K-Means（六）

最新推荐文章于 2024-10-01 11:58:20 发布

绿树疯子

最新推荐文章于 2024-10-01 11:58:20 发布

阅读量599

点赞数 17

分类专栏：机器学习文章标签：回归聚类 k-means

本文链接：https://blog.csdn.net/qq_37441377/article/details/138210573

版权

35 篇文章 0 订阅

订阅专栏

在这里插入图片描述

我们可以怎样最有用地对其进行归纳和分组？我们可以怎样以一种压缩格式有效地表征数据？这都是无监督学习的目标，之所以称之为无监督，是因为这是从无标签的数据开始学习的。

一个K-means的聚类效果图：
在这里插入图片描述

1K-means聚类步骤

以一张图来解释效果：
在这里插入图片描述

sklearn.cluster.KMeans(n_clusters=8，init='k-means++’)
- k-means聚类
- n_clusters：开始的聚类中心数量
- init：初始化方法，默认为’k-means ++’
- labels_：默认标记的类型，可以和真实值比较（不是值比较）

1分析

2代码

//取500个用户进行测试
cust = data[:500]
km= KMeans(n_clusters=4)
km.fit(cust)
pre = km.predict(cust)

问题：如何去评估聚类的效果呢？

1轮廓系数
在这里插入图片描述

注：对于每个点i为已聚类数据中的样本，b_i为i到其它族群的所有样本的距离最小值，a_i为i 到本身簇的距离平均值。最终计算出所有的样本点的轮廓系数平均值。

2轮廓系数值分析
在这里插入图片描述

3结论
如果b_i>>a_i：趋近于1效果越好，b_i<<a_i：趋近于-1，效果不好。轮廓系数的值是介
于[-1,1]，越趋近于1代表内聚度和分离度都相对较优。

4轮廓系数API

sklearn.metrics.silhouette_score(X, labels)
- 计算所有样本的平均轮廓系数
- X：特征值
- labels：被聚类标记的目标值

from sklearn.metrics import silhouette_score
silhouette_score(cust, pre)

注意：聚类一般做在分类之前

关注

专栏目录