sklearn-day7

最新推荐文章于 2024-09-14 17:02:52 发布

nanjoll

最新推荐文章于 2024-09-14 17:02:52 发布

阅读量38

点赞数

文章标签： sklearn 人工智能 python

本文链接：https://blog.csdn.net/misakan/article/details/131977732

版权

文章介绍了无监督学习中的聚类算法，特别是sklearn库中的KMeans实现。KMeans通过寻找数据的质心来划分簇，目标是最小化簇内误差平方和。关键参数包括n_clusters（簇的数量）、init（初始质心选择）、max_iter（最大迭代次数）和tol（容忍的误差阈值）。文章还讨论了算法的时间复杂度和如何根据数据分布调整这些参数。

摘要由CSDN通过智能技术生成

1 概述

1.1 无监督学习与聚类算法

在这里插入图片描述

1.2 sklearn中的聚类算法

聚类算法在sklearn中有两种表现形式，一种是类（和我们目前为止学过的分类算法以及数据预处理方法们都一样），需要实例化，训练并使用接口和属性来调用结果。另一种是函数（function），只需要输入特征矩阵和超参数，即可返回聚类的结果和各种指标。
在这里插入图片描述

2 KMeans

2.1 KMeans是如何工作的

KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇，直观上来看是簇是一组一组聚集在一起的数据，在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。
簇中所有数据的均值通常被称为这个簇的“质心”（centroids）。在一个二维平面中，一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值，质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高维空间。

2.2 簇内误差平方和的定义和解惑

我们认为，被分在同一个簇中的数据是有相似性的，而不同簇中的数据是不同的
聚类算法也是同样的目的，我们追求“簇内差异小，簇外差异大”。而这个“差异“，由样本点到其所在簇的质心的距离来衡量。

2.3 KMeans算法的时间复杂度

3 sklearn.cluster.KMeans

3.1 重要参数n_clusters

n_clusters是KMeans中的k，表示着我们告诉模型我们要分几类。这是KMeans当中唯一一个必填的参数，默认为8类，但通常我们的聚类结果会是一个小于8的结果。通常，在开始聚类之前，我们并不知道n_clusters究竟是多少，因此我们要对它进行探索。

3.2 重要参数init & random_state & n_init：初始质心怎么放好?

在这里插入图片描述

3.3 重要参数max_iter & tol：让迭代停下来

在之前描述K-Means的基本流程时我们提到过，当质心不再移动，Kmeans算法就会停下来。但在完全收敛之前，我们也可以使用max_iter，最大迭代次数，或者tol，两次迭代间Inertia下降的量，这两个参数来让迭代提前停下来。有时候，当我们的n_clusters选择不符合数据的自然分布，或者我们为了业务需求，必须要填入与数据的自然分布不合的n_clusters，提前让迭代停下来反而能够提升模型的表现。
max_iter：整数，默认300，单次运行的k-means算法的最大迭代次数
tol：浮点数，默认1e-4，两次迭代间Inertia下降的量，如果两次迭代之间Inertia下降的值小于tol所设定的值，迭代就会停下