K-Means使用详解（scikit-learn）_kmeans.predict-CSDN博客

本文链接：https://blog.csdn.net/qq_34104548/article/details/79336584

K-means算法是最经典的聚类算法，本文对scikit-learn中的kmeans进行说明，以便以后使用。

要使用kmeans算法的话，首先需要进行import：from sklearn.cluster import KMeans

scikit-learn中，通过KMeans进行对象的新建，并传入算法参数进行参数设置。

传参详解

1、n_clusters : 聚类中心数量（开始时需要产生的聚类中心数量），默认为8

2、max_iter : 算法运行的最大迭代次数，默认300

3、tol: 容忍的最小误差，当误差小于tol就会退出迭代（算法中会依赖数据本身），默认为1e-4

4、n_init : k-means算法会随机运行n_init次，最终的结果将是最好的一个聚类结果，默认10

5、init : 聚类中心的初始化方案，有三个选择{'k-means++', 'random' or an ndarray}

5.1、 'k-means++' : 默认选项，初始化过程如下

（1）、从输入的数据点集合（要求有k个聚类）中随机选择一个点作为第一个聚类中心；（2）、对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)；（3）、选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大；（4）、重复2和3直到k个聚类中心被选出来

5.2、'random': 随机选择k个实例作为聚类中心

5.4、ndarray：如果传入为矩阵（ndarray），则将该矩阵中的每一行作为聚类中心

6、algorithm :可选的K-means距离计算算法，可选{"auto", "full" or "elkan",default="auto"}

6.1"full"：传统的距离计算方式.

6.2"elkan"：使用三角不等式，效率更高，但是目前不支持稀疏数据。1、计算任意两个聚类中心的距离；2当计算x点应该属于哪个聚类中心时，当发现2*S(x，K1)<S（x，K2）时，根据三角不等式，S（x，K2）>S(x，K1)，

6.3"auto"：当为稀疏矩阵时，采用full，否则elkan。

7、precompute_distances : 是否将数据全部放入内存计算，可选{'auto', True, False}，开启时速度更快但是更耗内存.

7.1、'auto' : 当n_samples * n_clusters > 12million，不放入内存，否则放入内存，double精度下大概要多用100M的内存

7.2、True : 进行预计算

7.3、False : 不进行预计算

8、n_jobs : 同时进行计算的核数（并发数），n_jobs用于并行计算每个n_init，如果设置为-1，使用所有CPU，若果设置为1，不并行，如果设置小于-1，使用CPU个数+1+n_jobs个CPU

9、random_state : 用于随机产生中心的随机序列

10、verbose : 是否输出详细信息，默认为0，bush

11、copy_x : 是否直接在原矩阵上进行计算。默认为True，会copy一份进行计算。

新建对象后，常用的方法包括fit、predict、cluster_centers_和labels。fit（X）函数对数据X进行聚类，使用predict方法进行新数据类别的预测，使用cluster_centers_获取聚类中心，使用labels_获取训练数据所属的类别，inertia_获取每个点到聚类中心的距离和。源码中的实例代码如下：

X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])#此处要进行np的import import numpy as np
kmeans = KMeans(n_clusters=2, random_state=0)#新建KMeans对象，并传入参数
kmeans.fit(X)#进行训练
print(kmeans.labels_)
print(kmeans.predict([[0, 0], [4, 4]]))

print(kmeans.cluster_centers_)

除了这些常用方法外，KMeans还包括以下其他的方法以供调用：

（1）fit_predict（X）：先对X进行训练并预测X中每个实例的类，等于先调用fit（X）后调用predict（X），返回X的每个类；

（2）transform（X）：将X进行转换，转换为K列的矩阵，其中每行为一个实例，每个实例包含K个数值（K为传入的类数量），第i列为这个实例到第K个聚类中心的距离；

（3）fit_transform（X）：类似（1），先进行fit之后进行transform；

（4）score（X）：输入样本（这里的样本不是训练样本，而是其他传入的测试样本）到他们的类中心距离和，然后取负数（这里不太明白的是为什么取负数，如果有大牛知道请告知）。