sklearn学习05——K-means


前言

面对无标签的数据集,我们期望从数据中找出一定的规律。一种最简单也最快速的聚类算法应运而生——K-Means。因为数据集无标签,所以它是无监督学习,下面介绍K-means算法思想,然后再调用sklearn相关库代码实现一下。

一、K-means算法思想

其核心思想比较简单,四个字概括的话就是:物以类聚。先理解下面的流程图(来自西瓜书),可以看到该算法的详细过程是怎样的:
流程
整个过程是一个不断迭代更新的过程:首先初始化 k 个聚簇中心向量(后边简称为 质心),然后计算每个样本到这 k 个质心的欧氏距离,该样本的类别就定为 离它最近的质心的类别(符合“物以类聚”的思想),将所有样本分好类之后,需要更新这 k 个质心,更新前和更新后的质心的偏离比较小(用一个阈值来表示我们的要求),或者迭代到了一定次数的时候,就停止更新,完成了分类。

如果引入目标函数,我们最终会使:
目标
即每个样本到它所在簇的质心的欧氏距离之和最小。

关于K-means聚类算法的一些需要注意的点:

  • k 值的选择。一般来说,我们会根据对数据的先验经验选择一个合适的 k 值,如果没有什么先验知识,则可以通过交叉验证选择一个合适的 k 值。
  • k 个初始化的质心的选择。由于它是启发式方法,k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择合适的 k 个质心,最好这些质心不能太近。(在初始点选择这方面做了优化后,就是 K-means++算法)。

二、代码实现 K-means算法

2.1、引入相关库

代码如下:

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

2.2、生成数据集

代码如下:

# make_blobs:生成聚类的数据集
# n_samples:生成的样本点个数,n_features:样本特征数,centers:样本中心数
# cluster_std:聚类标准差,shuffle:是否打乱数据,random_state:随机种子
X, y = make_blobs(n_samples=150, n_features=2,centers=3, cluster_std=0.5,shuffle=True, random_state=0)

# 散点图
# c:点的颜色,marker:点的形状,edgecolor:点边缘的颜色,s:点的大小
plt.scatter(X[:, 0], X[:, 1],c='white', marker='o',edgecolor='black', s=50)
plt.show()

这里生成3簇数据,并以散点图的形式显示出来,如下图:
散点图

2.3、训练 + 预测

代码如下:

# 定义模型
# n_clusters:要形成的簇数,即k均值的k,init:初始化方式,tot:Frobenius 范数收敛的阈值
model = KMeans(n_clusters=3, init='random',n_init=10, max_iter=300, tol=1e-04, random_state=0)
# 训练加预测
y_pred = model.fit_predict(X)

训练,预测完之后将数据集显示出来,看每个样本属于哪一个簇:

代码如下:

# 画出预测的三个簇类
plt.scatter(
    X[y_pred == 0, 0], X[y_pred == 0, 1],
    s=50, c='lightgreen',
    marker='s', edgecolor='black',
    label='cluster 1'
)

plt.scatter(
    X[y_pred == 1, 0], X[y_pred == 1, 1],
    s=50, c='orange',
    marker='o', edgecolor='black',
    label='cluster 2'
)

plt.scatter(
    X[y_pred == 2, 0], X[y_pred == 2, 1],
    s=50, c='lightblue',
    marker='v', edgecolor='black',
    label='cluster 3'
)

# 画出聚类中心
plt.scatter(
    model.cluster_centers_[:, 0], model.cluster_centers_[:, 1],
    s=250, marker='*',
    c='red', edgecolor='black',
    label='centroids'
)
plt.legend(scatterpoints=1)
plt.grid()
plt.show()

训练预测
因为我们直观上看到这个数据集大概率是三类样本(其实数据集是我们自己做的,我们已经知道它是几个簇了),所以在选择 k 值的时候直接定义为 3。但假设在不知道数据集是多少个簇组成的,我们就要尝试不同的 k 值了。这时,我们引入一个 惯性指标(inertia) 来帮助我们选择 k 值。

2.3、惯性指标(inertia)

K-Means的惯性指标计算方式是:每个样本与最接近的质心的均方距离的总和。
下面使用 不同的 k 值来训练看该惯性指标如何变化:

# 计算inertia随着k变化的情况
distortions = []
for i in range(1, 10):
    model = KMeans(
        n_clusters=i, init='random',
        n_init=10, max_iter=300,
        tol=1e-04, random_state=0
    )
    model.fit(X)
    distortions.append(model.inertia_)
# 画图可以看出k越大inertia越小,追求k越大对应用无益处
plt.plot(range(1, 10), distortions, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Distortion')
plt.show()

惯性指标(inertia)的变化如下图显示:
变化

一般地,惯性指数越小模型越好,但伴随K值的增大,惯性下降的速度变的很慢,因此我们选择“肘部”的K值,作为最优的K值选择。

总结

关于K-means传统聚类算法,它是一种无监督的较简单的分类学习方法,它在 k 值选择 和 初始化聚簇中心向量时 比较随意,因此之后也有不少在这些方面做出改进的算法,例如初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法等。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值