Python实现K-Means聚类（案例：用户分类）

最新推荐文章于 2024-04-11 08:59:06 发布

小韵~

最新推荐文章于 2024-04-11 08:59:06 发布

阅读量3.5w

点赞数 69

文章标签： python 均值算法 kmeans

本文链接：https://blog.csdn.net/joker22222222222/article/details/119987703

版权

实用案例：基于轮廓系数来选择最佳的n_clusters

绘制轮廓系数分布图

结果对比

优化方案选择

K-Means聚类算法介绍

K-Means又称为K均值聚类算法，属于聚类算法中的一种，而聚类算法在机器学习算法中属于无监督学习，在业务中常常会结合实际需求与业务逻辑理解来完成建模；

无监督学习：训练时只需要特征矩阵X，不需要标签；

K-Means聚类算法基础原理

K-Means聚类算法是聚类算法家族中的典型代表，同时也是最简单的算法，接下来为大家简单地介绍聚类算法基本原理：

将一组存在N个样本的特征矩阵X划分为K个无交集的簇，每一个簇中含有多个数据，每一个数据代表着一个样本，在同一个簇中的数据即被算法认为是同一类；

N：假设为样本数量；

K：假设为聚类簇的数量；

簇：类似于集合，也可以通俗地理解成一个小组，不同小组等于不同分类；

而一个簇中的所有数据的均值，被称为这个簇的质心，质心的维度与特征矩阵X的维度相同，如特征矩阵X是三维数据集，质心也就是一个三维的坐标，如此类推至更高维度；

K-Means聚类算法实现流程

步骤一：随机在N个样本中抽取K个作为初始的质心；

步骤二：开始遍历除开质心外的所有样本点，将其分配至距离它们最近的质心，每一个质心以及被分配至其下的样本点视为一个簇（或者说一个分类），这样便完成了一次聚类；

步骤三：对于每一个簇，重新计算簇内所有样本点的平均值，取结果为新的质心；

步骤四：比对旧的质心与新的质心是否再发生变化，若发生变化，按照新的质心从步骤二开始重复，若没发生变化，聚类完成；

关键要点：不断地为样本点寻找质心，然后更新质心，直至质心不再变化；

开始做一个简单的聚类

环境说明：本文实际案例中使用Jupyter环境下运行（安装与使用可自行百度）；

数据导入

做数据分析前，首先第一步是导入数据，可以利用pandas内的read_csv函数来导入数据；

首先，导入所需要用到的类，并使用read_csv函数导入案例数据：

import numpy as np
import pandas as pd

data = pd.read_csv(r'D:\Machine_learning\KMeans\client_data.csv')

# 使用pandas中的read_csv函数导入数据集后，默认格式为DataFrame

# 直接查看当前数据集长什么样子

data.head()

数据打开后会发现大概长这样：

	交易额	成交单量	最近交易时间
0	76584.92	294	64
1	94581.00	232	1
2	51037.60	133	1
3	43836.00	98	1
4	88032.00	95	2

# 若表头项为中文时，可能出现乱码情况，请自行百度解决，或直接修改为英文；

数据探索

先探索数据类型：

# 探索数据类型
data.info()

# 输出结果：
<cl

最低0.47元/天解锁文章

小韵~

关注

69
点赞
踩
490

收藏

觉得还不错? 一键收藏
19
评论
Python实现K-Means聚类（案例：用户分类）

K-Means聚类算法介绍K-Means又称为K均值聚类算法，属于聚类算法中的一种，而聚类算法在机器学习算法中属于无监督学习，在业务中常常会结合实际需求与业务逻辑理解来完成建模；无监督学习：训练时只需要特征矩阵X，不需要标签；K-Means聚类算法基础原理K-Means聚类算法是聚类算法家族中的典型代表，同时也是最简单的算法，接下来为大家简单地介绍聚类算法基本原理：将一组存在N个样本的特征矩阵X划分为K个无交集的簇，每一个簇中含有多个数据，每一个数据代表着一个样本，在同一个簇中的
复制链接

扫一扫