【机器学习sklearn】K-means聚类算法

最新推荐文章于 2024-06-24 19:08:35 发布

Moonuiu

最新推荐文章于 2024-06-24 19:08:35 发布

阅读量1.2k

点赞数 2

分类专栏： sklearn 文章标签：机器学习聚类算法 kmeans算法

本文链接：https://blog.csdn.net/weixin_43182102/article/details/122159604

版权

sklearn 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

k-means：k均值聚类算法

一、聚类任务
二、K均值聚类算法
- cluster.KMeans()函数
- make_blobs()函数
总结

一、聚类任务

【有监督学习】在“监督学习”(supervised learning)中，训练样本是带有标记信息的，目标是对带有标记的数据集进行模型学习，从而便于对新的样本进行分类。
【无监督学习】在“无监督学习”（unsupervised learning）中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。无监督学习任务应用最多的是“聚类”（clustering）。
聚类将数据集中的样本划分为若干个不相交的子集，每个子集称为一个“簇”（cluster）。

假定样本集 $D=\lbrace x_1,x_2,x_m \rbrace$ 包含 $m$ 个无标记样本，每个样本 $x_i=(x_i1,x_i2,x_in)$ 是一个 $n$ 维特征向量，则聚类算法将样本集 $D$ 划分为 $k$ 个不相交的簇 $\lbrace C_l | l=1,2,...,k \rbrace$ 。

聚类的结果可用包含 $m$ 个元素的簇标记向量 $\lambda_i = (\lambda_1,\lambda_2,...,\lambda_m)$ 表示。

性能度量

聚类性能度量亦称为聚类“有效性指标”。
$\color{blue}{什么样的聚类结果比较好？}$
“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低。

聚类性能度量分类：
一是将聚类结果与某个“参考模型”进行比较，称为“外部指标”（external index）；

Jaccard系数（Jaccard Coefficient，JC）
FM指数（Fowlkes and Mallows Index，FMI）
Rand指数（Rand Index，RI）

二是直接考虑聚类结果而不利用任何参考模型，称为“内部指标”（internal index）。

DB指数（Davies-Bouldin，DBI）
Dunn指数（Dunn Index，DI）

DBI的值越小越好，而DI则相反，值越大越好。

距离度量（distance measure）

非负性： $dist(x_i,x_j)\geq0$ ；
同一性： $dist(x_i,x_j)=0$ 当且仅当 $x_i=x_j$ ;
对称性： $dist(x_i,x_j)=dist(x_j,x_i)$ ;
直递性： $dist(x_i,x_j) \leq dist(x_i,x_k)+dist(x_k,x_j)$ （或称为“三角不等式”）。

给定样本 $x_i=(x_{i1},x_{i2},...,x_{in})$ 与 $x_j=(x_{j1},x_{j2},...,x_{jn})$ ，最常用的是“闵可夫斯基距离”（Minkowski distance）。

$dist_{mk}(x_i,x_j)=(\sum^{n}_{u=1}|x_{iu}-x_{ju}|)^{\frac {1}{p}}$

欧氏距离（Euclidean distance）又称为L2范数，即p=2。
$dist_{ed}(x_i,x_j)=||x_i-x_j||_2=(\sum^{n}_{u=1}|x_{iu}-x_{ju}|)^{\frac {1}{2}}$

曼哈顿距离（Manhattan distance），即p=1。
$dist_{man}(x_i,x_j)=||x_i-x_j||_1=\sum^{n}_{u=1}|x_{iu}-x_{ju}|$

原型聚类（基于原型的聚类 prototype-based clustering）

k均值（k-means）算法
学习向量量化（Learning Vector Quantization，LVQ）
高斯混合聚类（Mixture-of-Gaussian）- 概率模型

密度聚类（基于密度的聚类 density-based clustering）

样本分布的紧密程度

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）密度聚类算法

层次聚类（hierarchical clustering）

试图在不同层次对数据集进行划分，从而形成树形的聚类结构。
数据集划分：
“自底向上” 聚合策略 or “自顶向下”分拆策略。

二、K均值聚类算法

给定样本集 $D=\lbrace x_1,x_2,x_m \rbrace$ ，“k均值”（k-means）算法针对聚类所得簇划分 $C=\lbrace C_1,C_2,C_k \rbrace$ 最小化平方误差：
$E=\sum^{k}_{u=1}\sum_{x \in C_i}||x-\mu_i||_2^2$
其中， $\mu_i=\frac {1}{|C_i|}\sum_{x \in C_i}x$ 是簇 $C_i$ 的均值向量。上式在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度， $E$ 值越小则簇内样本相似度越高。
k均值聚类算法步骤：

（1）为每个聚类选择一个初始聚类中心；

（2）将样本集按照最小距离原则分配到最邻近聚类；

（3）使用每个聚类的样本均值更新聚类中心；

（4）重复步骤（2）、（3），直到聚类中心不再发生变化；

（5）输出最终的聚类中心和k个簇划分。

（k均值算法图）

cluster.KMeans()函数

class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init=10, max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='auto')

K均值聚类函数。

n_clusters：int，默认值=8。要形成的簇数以及要生成的质心数
init：{‘k-means++’, ‘random’}, 可调用或类似数组的形状 (n_clusters, n_features), default=‘k-means++’
n_init：int，默认值=10
k-means 算法将使用不同的质心种子运行的次数。最终结果将是 n_init 连续运行在惯性方面的最佳输出。
max_iter：int，默认值=300
单次运行的 k-means 算法的最大迭代次数。
tol：float，默认值=1e-4。两个连续迭代的聚类中心差异的 Frobenius 范数的相对容差，以声明收敛。
verbose：int, default=0。详细模式。
random_stateint, RandomState instance or None, default=None。确定用于质心初始化的随机数生成。使用 int 使随机性具有确定性。
copy_x：bool, default=True。在预先计算距离时，首先将数据居中在数值上更准确。如果 copy_x 为 True（默认），则不修改原始数据。如果为False，则修改原始数据，并在函数返回之前放回原处，但通过减去然后加上数据均值可能会引入小的数值差异。
algorithm：{“auto”, “full”, “elkan”}, default=”auto”。要使用的 K 均值算法。

make_blobs()函数

sklearn.datasets.make_blobs(n_samples=100, n_features=2, *, centers=None, cluster_std=1.0, center_box=(- 10.0, 10.0), shuffle=True, random_state=None, return_centers=False)

聚类数据生成器。

n_samples是待生成的样本的总数。
n_features是每个样本的特征数。
centers表示类别数。
cluster_std表示每个类别的方差。
center_box中心确定之后的数据边界。
shuffle是否打乱数据。
random_state随机种子。

代码如下（示例）：

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans  # 导入K均值聚类算法

# make_blobs：生成聚类的数据集
# n_samples：生成的样本点个数，n_features：样本特征数，centers：样本中心数
# cluster_std：聚类标准差，shuffle：是否打乱数据，random_state：随机种子
X, y = make_blobs(n_samples=150, n_features=2,centers=3, cluster_std=0.5,shuffle=True, random_state=0)

# 散点图
# c：点的颜色，marker：点的形状，edgecolor：点边缘的形状，s：点的大小
plt.scatter(X[:, 0], X[:, 1],c='white', marker='o',edgecolor='black', s=50)
plt.show()

# 定义模型
# n_clusters：要形成的簇数，即k均值的k，init：初始化方式，tot：Frobenius 范数收敛的阈值
model = KMeans(n_clusters=3, init='random',n_init=10, max_iter=300, tol=1e-04, random_state=0)
# 训练加预测
y_pred = model.fit_predict(X)

# 画出预测的三个簇类
plt.scatter(
    X[y_pred == 0, 0], X[y_pred == 0, 1],
    s=50, c='lightgreen',
    marker='s', edgecolor='black',
    label='cluster 1'
)

plt.scatter(
    X[y_pred == 1, 0], X[y_pred == 1, 1],
    s=50, c='orange',
    marker='o', edgecolor='black',
    label='cluster 2'
)

plt.scatter(
    X[y_pred == 2, 0], X[y_pred == 2, 1],
    s=50, c='lightblue',
    marker='v', edgecolor='black',
    label='cluster 3'
)

# 画出聚类中心
plt.scatter(
    model.cluster_centers_[:, 0], model.cluster_centers_[:, 1],
    s=250, marker='*',
    c='red', edgecolor='black',
    label='centroids'
)
plt.legend(scatterpoints=1)
plt.grid()
plt.show()

# 计算inertia随着k变化的情况
distortions = []
for i in range(1, 10):
    model = KMeans(
        n_clusters=i, init='random',
        n_init=10, max_iter=300,
        tol=1e-04, random_state=0
    )
    model.fit(X)
    distortions.append(model.inertia_)
# 画图可以看出k越大inertia越小，追求k越大对应用无益处
plt.plot(range(1, 10), distortions, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Distortion')
plt.show()

总结

聚类不存在客观标准。
距离计算除了闵可夫斯基距离之外，还有内积距离、余弦距离等。
均值聚类算法优点：
（1）原理易懂、易于实现，收敛速度快；
（2）当簇间的区别较明显时，聚类效果较好；
（3）算法可解释度高，参数少，只需调整簇数k即可。
缺点：
（1）当样本集规模大时，收敛速度会变慢；
（2）对孤立点数据敏感，少量噪声就会对平均值造成较大影响；
（3）k的取值十分关键，对不同数据集，k选择没有参考性，需要大量实验；
（4）采用迭代方法，得到的结果只是局部最优；
（5）算法不稳定，受初始中心点的选择影响较大。

参考链接：
sklearn中的K-means算法
 K-means算法详解及实现
 scikit-learn makeblobs()
scikit-learn KMeans()
《机器学习》- 周志华

Moonuiu

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
【机器学习sklearn】K-means聚类算法

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档k-means：k均值聚类算法前言一、聚类任务性能度量距离度量（distance measure）原型聚类（基于原型的聚类 prototype-based clustering）密度聚类（基于密度的聚类 density-based clustering）层次聚类（hierarchical clustering）二、K均值聚类算法cluster.KMeans()函数make_blobs()函数总结前言提示：这里可以添加本文要记录的大概内
复制链接

扫一扫

专栏目录