聚类算法（KMeans）模型评估方法（SSE、SC）及案例

最新推荐文章于 2025-03-13 12:21:06 发布

小林打怪中

最新推荐文章于 2025-03-13 12:21:06 发布

阅读量1w

点赞数 59

文章标签：机器学习人工智能聚类算法模型评估

本文链接：https://blog.csdn.net/linxinyide/article/details/135694328

版权

本文详细介绍了聚类算法，包括K-means、层次聚类、DBSCAN和谱聚类，重点讲解了K-means的实现流程和评估方法如SSE、肘方法和轮廓系数。并通过实际的客户数据分析案例展示了聚类在业务中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、概述

将相似的样本自动归到一个类别中，不同的相似度计算方法，会得到不同的聚类结果，常用欧式距离法；聚类算法的目的是在没有先验知识的情况下，自动发现数据集中的内在结构和模式。是无监督学习算法

二、分类

根据聚类颗粒度：细聚类、粗聚类

根据实现方法

K-means：按照质心分类，主要介绍K-means，通用、普遍；

层次聚类：对数据进行逐层划分，直到达到聚类的类别个数；

DBSCAN聚类：一种基于密度的聚类算法；

谱聚类：是一种基于图论的聚类算法

三、KMeans方法

实现流程

1 、事先确定常数K ，常数K意味着最终的聚类类别数

2、随机选择 K 个样本点作为初始聚类中心

3、计算每个样本到 K 个中心的距离，选择最近的聚类中心点作为标记类别

4、根据每个类别中的样本点，重新计算出新的聚类中心点（平均值），如果计算得出的新中心点与原中心点一样则停止聚类，否则重新进行第 2 步过程，直到聚类中心不再变化

# 导包
from sklearn.cluster import KMeans

sklearn.cluster.KMeans ( n_clusters = 8 )

# 方法
estimator.fit_predict(x)

导包：from sklearn.cluster import KMeans

sklearn.cluster.KMeans ( n_clusters = 8 )

参数：n_clusters：开始的聚类中心数量（整型，缺省值=8，生成的聚类数，即产生的质心（centroids）数

方法：estimator.fit_predict(x)

评估：silhouette_score(x, y_pred) # 评估聚类效果，数值越大越好

案例

1 导包

# 1.导入工具包
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.metrics import silhouette_score  # 计算SC系数

2 创建数据集

# 2.创建数据集 1000个样本,每个样本2个特征 4个质心蔟数据标准差[0.4, 0.2, 0.2, 0.2]
x, y = make_blobs(n_samples=1000, n_features=2, centers=[[-1,-1], [0,0], [1,1], [2,2]],cluster_std = [0.4, 0.2, 0.2, 0.2], random_state=22)
plt.figure()
plt.scatt

最低0.47元/天解锁文章