【skLearn 聚类算法】KMeans

最新推荐文章于 2025-04-15 23:09:39 发布

骑着蜗牛ひ追导弹'

最新推荐文章于 2025-04-15 23:09:39 发布

阅读量7k

点赞数 15

分类专栏： # 机器学习 Sklearn 文章标签：机器学习

本文链接：https://blog.csdn.net/qq_45797116/article/details/112280679

版权

机器学习 Sklearn 专栏收录该内容

26 篇文章

订阅专栏

本文深入探讨了KMeans聚类算法，包括其工作原理、使用步骤和关键参数。通过实例展示了如何在Python中使用sklearn库进行KMeans聚类，强调了n_clusters参数的选择和聚类效果的评估，特别是使用轮廓系数来衡量聚类质量。此外，还讨论了其他评估指标和算法优化方法，如调整兰德系数和卡林斯基-哈拉巴斯指数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

KMeans聚类算法前言
- ※ 聚类与分类的区别
- ※ sklearn.cluster: Clustering --- 聚类模块
一、KMeans工作原理
二、KMeans类的使用
三、聚类的模型评估指标
四、案例：基于轮廓系数来选择 n_clusters
五、遍历n_cluster查找最优
六、重要参数 init、random_state、n_init
七、重要参数 max_iter、tol
八、总结回顾重要属性与接口
十、cluster.k_means（）函数的使用

KMeans聚类算法前言

决策树、随机森林、逻辑回归，功能不同，但是都属于有监督学习（在进行模型训练的时候，既需要特征矩阵 X，也需要真实标签 Y）

KMeans聚类算法属于无监督学习（在进行模型训练的时候，只需要特征矩阵 X，不需要真实标签 Y）

- 降维算法PCA就是无监督学习的一种，降维的目的并非输出某一个具体的标签，而是降低特征的数量

聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。

# 比如在商业中,如果我们手头有大量的当前和潜在客户的信息,我们可以使用聚类将客户划分为若干组,以便进一步分析和开展营销活动,最有名的客
   户价值判断模型RFM,就常常和聚类分析共同使用。

# 再比如,聚类可以用于降维和矢量量化(vector quantization)<将高维特征压缩到一列当中或者在不改变特征的数量和样本的数量情况下压缩数据上的信息量>，
   可以将高维特征压缩到一列当中,常常用于图像,声音,视频等非结构化数据,可以大幅度压缩数据量。

※ 聚类与分类的区别

聚类与分类的主要区别在于：聚类的不确定性
- 分类是将新数据按照原有的分组去进行识别划分，已经有了基准；聚类是按照给定的整个数据集，探索划分组别，所划分的类别与真实是否一致很难确定
- 这主要是基于两者的类型不同导致的，分类属于有监督，需要真实的标签（基准）进行训练；而聚类属于无监督，无需标签（没有基准）进行训练

在这里插入图片描述

【skLearn 聚类算法】KMeans

文章目录

KMeans聚类算法前言

※ 聚类与分类的区别

※ sklearn.cluster: Clustering — 聚类模块

一、KMeans工作原理

1.定义

2.算法过程

3.聚类结果分析

4.簇内平方和

5.KMeans算法的时间复杂度(了解)

二、KMeans类的使用

◐ 重要参数 ---- n_clusters

◐ 聚类案例

① 创建数据集

② KMeans聚类

★ 重要属性labels_,查看聚好的类别，每个样本所对应的簇数

☠ 注意 predict 和 fit_ predict

★ 重要属性cluster_centers_,查看质心

★ 重要属性inertia_,查看总距离平方和

③ 结果可视化

④ 检验质心数

三、聚类的模型评估指标

◑ 真实标签已知 ---- 几乎不可能

① 互信息分

② V-measure

③ 调整兰德系数

◑ 真实标签未知

① 轮廓系数

◐ 公式

◐ 轮廓系数应用

② 其他评估方法

卡林斯基-哈拉巴斯指数

四、案例：基于轮廓系数来选择 n_clusters

◑ 准备工作（数据集、画布）

◑ KMeans聚类、评估

◑ 可视化：绘制各个簇之间的轮廓系数的对比图

◑ 可视化：绘制聚类散点图

五、遍历n_cluster查找最优

◑ 代码可视化

◑ 结果展示

◑ 分析

六、重要参数 init、random_state、n_init

七、重要参数 max_iter、tol

八、总结回顾重要属性与接口

十、cluster.k_means（）函数的使用