聚类算法——kmeans

最新推荐文章于 2025-02-22 12:02:09 发布

单手法拉利

最新推荐文章于 2025-02-22 12:02:09 发布

阅读量3.2k

点赞数

文章标签：聚类算法 kmeans

本文链接：https://blog.csdn.net/m0_57210162/article/details/122451589

版权

本文详细介绍了聚类算法中的k-means方法，包括聚类的基本概念、k-means的工作原理、距离衡量标准（如欧几里得距离和余弦距离）、聚类参数n_clusters的重要性以及聚类效果的评估指标——轮廓系数。同时，文章提供了一个代码实例，展示如何在实际操作中运用k-means，并提到了在大数据场景下聚类的策略和模型评估的其他方法，如卡林斯基—哈拉巴斯指数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类属于无监督学习：训练数据中只有x没有y

聚类算法又叫无监督分类，目标是将数据划分为有意义的簇，将所有样本按照K个质心进行聚类

质心：一类坐标的平均点

聚类过程：先随机选取K个质心，根据质心生成簇，计算簇的质心，找到新的质心，直到簇与质心不在变化，聚类完成

聚类与分类：

聚类：在未知数据上进行划分，无监督

分类：已知数据进行划分，有监督

聚类使用场景：使用聚类找到同类客户，实现精准营销

聚类中使用距离衡量样本之间的相似性，簇中样本距离越小样本相似度高

kmeans中通常使用欧几里得距离，在文本处理中通常使用余弦距离

盲点：在聚类中没有损失函数的说法，损失函数只有在需要求参数的模型中使用，不求参数的模型不适用损失函数

n_clusters表示聚类的数量，是聚类中的重要参数

聚类模型评估：(主要依据实际业务）使用轮廓系数

轮廓系数：计算簇内差异与簇间差异，表示范围是[-1,1],越大说明效果越好

代码实例：

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

x,y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1) #自己创建数据集500个数据，二维数据，具有随机性使用random_state固定数据

最低0.47元/天解锁文章