十五、机器学习进阶知识：K-Means聚类算法

七层楼的疯子

已于 2024-07-13 15:30:52 修改

阅读量2k

点赞数 24

分类专栏：机器学习（Python）文章标签：机器学习人工智能 python 数据分析数据挖掘聚类

于 2023-12-04 17:00:00 首次发布

本文链接：https://blog.csdn.net/weixin_42051846/article/details/134616626

版权

文章目录

1、聚类概述
2、K-Means聚类算法原理
3、K-Means聚类实现
- 3.1 基于SKlearn实现K-Means聚类
- 3.2 自编写方式实现K-Means聚类
4、算法不足与解决思路

1、聚类概述

聚类（Clustering）是指将不同的对象划分成由多个对象组成的多个类的过程，由聚类产生的数据分组，同一组内的对象具有相似性，不同组的对象具有相异性，它是一类机器学习基础算法的总称，聚类的核心计算过程是将数据对象集合按相似程度划分成多个类，划分得到的每个类称聚类的簇。
簇（Cluster）是由距离邻近的对象组合而成的集合。聚类的最终目标是获得紧凑、独立的簇集合。一般采用相似度作为聚类的依据，两个对象的距离越近，其相似度就越大。
由于聚类时待划分的类别未知，即训练数据没有标签，因此聚类的准确率相对于分类而言较低一点，但是聚类最大的特点是可以发现新知识、新规律，因此，聚类也是了解未知世界的一种重要手段。聚类可以单独实现，通过划分寻找数据内在分布规律，也可以作其他学习任务的前驱过程。
由于聚类使用的数据是无标记的，因此聚类属于非监督学习。聚类本质上仍然是对数据类别进行划分的问题，但是由于没有固定的类别标准，因此聚类的核心问题是如何定义簇。最常用的方法是依据样本间距离、样本的空间分布密度等来确定。按照簇的定义和聚类的方式，聚类大致分为以下几种：K-Means 为代表的簇中心聚类、基于连通性的层次聚类、以EM算法为代表的概率分布聚类、以 DBSCAN 为代表的基于网格密度的聚类，以及高斯混合聚类等。

2、K-Means聚类算法原理

K-Means 聚类算法也称为K均值聚类算法，是典型的聚类算法。对于给定的数据集和需要划分的类数k，算法根据距离函数进行迭代处理，动态地把数据划分成k个簇（即类别），直到收敛为止。簇中心也称为聚类中心。
K-Means 聚类的优点是算法简单、运算速度快，即便数据集很大计算起来也较便捷。不足之处是如果数据集较大，容易获得局部最优的分类结果，而且所产生的类的大小相近，对噪声数据也比较敏感。
K-Means 算法的实现过程较为简单，首先选取k个数据点作为初始的簇中心，即聚类中心。初始的聚类中心也被称作种子。然后，逐个计算各数据点到各个聚类中心的距离，把数据点分配到离它最近的簇。一次选代之后，所有的数据点都会分配给某个簇。再根据分配结果计算出新的聚类中心，并重新计算各数据点到各种子的距离，根据距离重新进行分配。不断重复计算和重新分配的步骤，直到分配不再发生变化或满足终止条件为止。
算法的整体流程如下：

随机选择k个点作为聚类中心
while 不满足终止条件：
	for 数据集中的每个数据点：
		for k个聚类中心：
			计算每个点到每个聚类中心的距离
		比较滞后将数据点分配到最近的聚类中心
	for 每个簇：
		对聚类中心进行更新，更新为簇内所有点的均值

在上述过程中，终止条件一般可以设置为循环次数或者较小的误差值等。

由于聚类对划分的类别没有固定的定义，因此也没有固定的评价指标，一般来说聚类算法的理想目标是类内距离最小，类间的距离最大，因此，通常依此目标建立K-Means 聚类的目标函数。
假设数据集X包含n个数据点，需要划分到k个类。聚类中心用集合U表示。聚类后所有数据点到各自聚类中心的差的平方和为聚类平方和，用J表示，则J值的计算过程如下：
在这里插入图片描述

聚类的目标就是使J值最小化，如果在多次迭代之后，J值不再发生变化，说明簇的分配不再发生变化，算法已经收敛。另外计算每个点到聚类中心的距离一般采用欧氏距离进行计算。

3、K-Means聚类实现

3.1 基于SKlearn实现K-Means聚类

SKlearn的cluster模块中提供的KMeans类可以帮助实现K-means聚类，其语法格式如下：

sklearn.cluster.KMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0.0001,precompute_distances='auto',verbose=0,random_state=None,copy_x=True,n_jobs=None,algorithm='auto')

在上述格式中，n_clusters表示要形成的簇的数目，即类的数量，为可选项，默认为8；init用于接收待定的string，k-means++表示该初始化策略选择的初始均值向量之间都距离比较远，它的效果较好；n_init表示用不同种子运行K-Means 算法的次数，默认为10；max_iter表示单次运行的K-Means 算法的最大迭代次数，默认300；tol表示算法收敛的阈值；precompute_distances可选参数为Boolean或auto，表示是否提前计算好样本之间的距离；verbose表示是否输出日志信息，取值为0时表示不输出，取值越大，打印次数越频繁；random_state表示随机数生成器的种子；copy_x表示在进行距离计算前，是否要将数据居中以提高计算准确性，True表示不修改数据；n_jobs表示任务使用的CPU数量；algorithm表示对K-Means经典算法的选择。

返回KMeans 対象的属性主要有：
cluster_centers_：数组类型，各个簇中心的坐标。
labels_：每个数据点的标签。
inertia_：浮点型，数据样本到它们最接近的聚类中心的距腐平方和。
n_iter_：运行的选代改数。

KMeans类主要提供三个方法，功能及语法格式分别如下：
fit方法用于进行K-means聚类计算。