sklearn学习05——K-means

最新推荐文章于 2024-04-30 17:34:36 发布

hitsugaya837

最新推荐文章于 2024-04-30 17:34:36 发布

阅读量1k

点赞数

文章标签： sklearn kmeans 聚类

本文链接：https://blog.csdn.net/qq_42929168/article/details/122178638

版权

sklearn学习05——K-means

前言
一、K-means算法思想
二、代码实现 K-means算法
总结

前言

面对无标签的数据集，我们期望从数据中找出一定的规律。一种最简单也最快速的聚类算法应运而生——K-Means。因为数据集无标签，所以它是无监督学习，下面介绍K-means算法思想，然后再调用sklearn相关库代码实现一下。

一、K-means算法思想

其核心思想比较简单，四个字概括的话就是：物以类聚。先理解下面的流程图（来自西瓜书），可以看到该算法的详细过程是怎样的：

整个过程是一个不断迭代更新的过程：首先初始化 k 个聚簇中心向量（后边简称为质心），然后计算每个样本到这 k 个质心的欧氏距离，该样本的类别就定为离它最近的质心的类别（符合“物以类聚”的思想），将所有样本分好类之后，需要更新这 k 个质心，更新前和更新后的质心的偏离比较小（用一个阈值来表示我们的要求），或者迭代到了一定次数的时候，就停止更新，完成了分类。

如果引入目标函数，我们最终会使：

即每个样本到它所在簇的质心的欧氏距离之和最小。

关于K-means聚类算法的一些需要注意的点：

k 值的选择。一般来说，我们会根据对数据的先验经验选择一个合适的 k 值，如果没有什么先验知识，则可以通过交叉验证选择一个合适的 k 值。
k 个初始化的质心的选择。由于它是启发式方法，k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，因此需要选择合适的 k 个质心，最好这些质心不能太近。（在初始点选择这方面做了优化后，就是 K-means++算法）。

二、代码实现 K-means算法

2.1、引入相关库

代码如下：

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

2.2、生成数据集

代码如下：

# make_blobs：生成聚类的数据集
# n_samples：生成的样本点个数，n_features：样本特征数，centers：样本中心数
# cluster_std：聚类标准差，shuffle：是否打乱数据，random_state：随机种子
X, y = make_blobs(n_samples=150, n_features=2,centers=3, cluster_std=0.5,shuffle=True, random_state=0)

# 散点图
# c：点的颜色，marker：点的形状，edgecolor：点边缘的颜色，s：点的大小
plt.scatter(X[:, 0], X[:, 1],c='white', marker='o',edgecolor='black', s=50)
plt.show()

这里生成3簇数据，并以散点图的形式显示出来，如下图：

2.3、训练 + 预测

代码如下：

# 定义模型
# n_clusters：要形成的簇数，即k均值的k，init：初始化方式，tot：Frobenius 范数收敛的阈值
model = KMeans(n_clusters=3, init='random',n_init=10, max_iter=300, tol=1e-04, random_state=0)
# 训练加预测
y_pred = model.fit_predict(X)

训练，预测完之后将数据集显示出来，看每个样本属于哪一个簇：

代码如下：

# 画出预测的三个簇类
plt.scatter(
    X[y_pred == 0, 0], X[y_pred == 0, 1],
    s=50, c='lightgreen',
    marker='s', edgecolor='black',
    label='cluster 1'
)

plt.scatter(
    X[y_pred == 1, 0], X[y_pred == 1, 1],
    s=50, c='orange',
    marker='o', edgecolor='black',
    label='cluster 2'
)

plt.scatter(
    X[y_pred == 2, 0], X[y_pred == 2, 1],
    s=50, c='lightblue',
    marker='v', edgecolor='black',
    label='cluster 3'
)

# 画出聚类中心
plt.scatter(
    model.cluster_centers_[:, 0], model.cluster_centers_[:, 1],
    s=250, marker='*',
    c='red', edgecolor='black',
    label='centroids'
)
plt.legend(scatterpoints=1)
plt.grid()
plt.show()

训练预测
因为我们直观上看到这个数据集大概率是三类样本（其实数据集是我们自己做的，我们已经知道它是几个簇了），所以在选择 k 值的时候直接定义为 3。但假设在不知道数据集是多少个簇组成的，我们就要尝试不同的 k 值了。这时，我们引入一个 惯性指标（inertia） 来帮助我们选择 k 值。

2.3、惯性指标（inertia）

K-Means的惯性指标计算方式是：每个样本与最接近的质心的均方距离的总和。
下面使用不同的 k 值来训练看该惯性指标如何变化：

# 计算inertia随着k变化的情况
distortions = []
for i in range(1, 10):
    model = KMeans(
        n_clusters=i, init='random',
        n_init=10, max_iter=300,
        tol=1e-04, random_state=0
    )
    model.fit(X)
    distortions.append(model.inertia_)
# 画图可以看出k越大inertia越小，追求k越大对应用无益处
plt.plot(range(1, 10), distortions, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Distortion')
plt.show()

惯性指标（inertia）的变化如下图显示：

一般地，惯性指数越小模型越好，但伴随K值的增大，惯性下降的速度变的很慢，因此我们选择“肘部”的K值，作为最优的K值选择。

总结

关于K-means传统聚类算法，它是一种无监督的较简单的分类学习方法，它在 k 值选择和初始化聚簇中心向量时比较随意，因此之后也有不少在这些方面做出改进的算法，例如初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法等。

hitsugaya837

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
sklearn学习05——K-means

sklearn学习05——K-means前言一、K-means算法思想二、代码实现 K-means算法2.1、引入相关库2.2、生成数据集2.3、训练 + 预测2.3、惯性指标（inertia）总结前言面对无标签的数据集，我们期望从数据中找出一定的规律。一种最简单也最快速的聚类算法应运而生——K-Means。因为数据集无标签，所以它是无监督学习，下面介绍K-means算法思想，然后再调用sklearn相关库代码实现一下。一、K-means算法思想其核心思想比较简单，四个字概括的话就是：物以类
复制链接

扫一扫