Python实现K-Means聚类(案例:用户分类)

目录

K-Means聚类算法介绍

K-Means聚类算法基础原理

K-Means聚类算法实现流程

开始做一个简单的聚类

数据导入

数据探索 

开始聚类

查看输出结果

聚类质心

K-Means聚类算法的评估指标

真实标签已知

真实标签未知

实用案例:基于轮廓系数来选择最佳的n_clusters

绘制轮廓系数分布图

结果对比

优化方案选择


K-Means聚类算法介绍

K-Means又称为K均值聚类算法,属于聚类算法中的一种,而聚类算法在机器学习算法中属于无监督学习,在业务中常常会结合实际需求与业务逻辑理解来完成建模;

无监督学习:训练时只需要特征矩阵X,不需要标签

K-Means聚类算法基础原理

K-Means聚类算法是聚类算法家族中的典型代表,同时也是最简单的算法,接下来为大家简单地介绍聚类算法基本原理:

将一组存在N个样本的特征矩阵X划分为K个无交集的簇,每一个簇中含有多个数据,每一个数据代表着一个样本,在同一个簇中的数据即被算法认为是同一类;

  • N:假设为样本数量;
  • K:假设为聚类簇的数量;
  • 簇:类似于集合,也可以通俗地理解成一个小组,不同小组等于不同分类;

而一个簇中的所有数据的均值,被称为这个簇的质心,质心的维度与特征矩阵X的维度相同,如特征矩阵X是三维数据集,质心也就是一个三维的坐标,如此类推至更高维度;

K-Means聚类算法实现流程

步骤一:随机在N个样本中抽取K个作为初始的质心;

步骤二:开始遍历除开质心外的所有样本点,将其分配至距离它们最近的质心,每一个质心以及被分配至其下的样本点视为一个簇(或者说一个分类),这样便完成了一次聚类;

步骤三:对于每一个簇,重新计算簇内所有样本点的平均值,取结果为新的质心;

步骤四:比对旧的质心与新的质心是否再发生变化,若发生变化,按照新的质心从步骤二开始重复,若没发生变化,聚类完成;

关键要点:不断地为样本点寻找质心,然后更新质心,直至质心不再变化;

开始做一个简单的聚类

环境说明:本文实际案例中使用Jupyter环境下运行(安装与使用可自行百度);

数据导入

做数据分析前,首先第一步是导入数据,可以利用pandas内的read_csv函数来导入数据;

首先,导入所需要用到的类,并使用read_csv函数导入案例数据:

import numpy as np
import pandas as pd

data = pd.read_csv(r'D:\Machine_learning\KMeans\client_data.csv')

# 使用pandas中的read_csv函数导入数据集后,默认格式为DataFrame

# 直接查看当前数据集长什么样子

data.head()

数据打开后会发现大概长这样:

	交易额	成交单量	最近交易时间
0	76584.92	294	64
1	94581.00	232	1
2	51037.60	133	1
3	43836.00	98	1
4	88032.00	95	2

# 若表头项为中文时,可能出现乱码情况,请自行百度解决,或直接修改为英文;

数据探索 

先探索数据类型:

# 探索数据类型
data.info()

# 输出结果:
<cl
  • 69
    点赞
  • 490
    收藏
    觉得还不错? 一键收藏
  • 19
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值