❤️Python机器学习❤️--聚类算法实现--Sklearn中的聚类算法关键参数详解

最新推荐文章于 2024-04-14 18:13:12 发布

轻窕

最新推荐文章于 2024-04-14 18:13:12 发布

阅读量542

点赞数

分类专栏：机器学习文章标签： sklearn python 算法 kmeans算法聚类算法

本文链接：https://blog.csdn.net/qq_43214331/article/details/120479980

版权

机器学习专栏收录该内容

18 篇文章 4 订阅

订阅专栏

聚类算法

K-Means算法基于Sklearn中的参数

from sklearn.cluster import KMeans
KMeans(n_clusters=8
       , init='k-means++'
       ,n_init=10
       ,max_iter=300
       , tol=0.0001
       , precompute_distances='auto'
       , verbose=0
       ,random_state=None
       , copy_x=True
       , n_jobs=None
       , algorithm='auto')
'''
参数：
1.n_clusters：整形，缺省值=8 生成的聚类数，即产生的质心（centroids）数。】
2.max_iter：整形，缺省值=300 执⾏一次k-means算法所进行的最大迭代数。
3.n_init：整形，缺省值=10
⽤不同的质心初始化值运行算法的次数，最终解是在inertia意义下选出的最优结果。
4.init：有三个可选值： ’k-means++’， ‘random’，或者传递⼀个ndarray向量。
此参数指定初始化⽅方法，默认值为 ‘k-means++’。
（１） ‘k-means++’ ⽤用⼀种特殊的方法选定初始质⼼从⽽能加速迭代过程的收敛（即上文中的kmeans++介绍）
（２） ‘random’ 随机从训练数据中选取初始质心。
（３）如果传递的是一个ndarray，则应该形如 (n_clusters, n_features) 并给出初始质心。
5.precompute_distances：三个可选值， ‘auto’， True 或者 False。预计算距离，计算速度更更快但占⽤用更更多内存。
（１） ‘auto’：如果 样本数乘以聚类数大于 12million 的话则不预计算距离。
This corresponds to about 100MB overhead per job using double precision.
（２） True：总是预先计算距离。
（３） False：永远不不预先计算距离。
6.tol： float形，默认值= 1e-4　与inertia结合来确定收敛条件。
7.n_jobs：整形数。　指定计算所⽤用的进程数。内部原理理是同时进行n_init指定次数的计算。
（１）若值为 -1，则⽤用所有的CPU进⾏运算。若值为1，则不进行并行运算，这样的话⽅便调试。
（２）若值⼩于-1，则⽤用到的CPU数为(n_cpus + 1 + n_jobs)。因此如果 n_jobs值为-2，则⽤到的CPU数为总CPU数减1。
8.random_state：整形或 numpy.RandomState 类型，可选⽤于初始化质心的⽣成器器（generator）。如果值为一个整数，则确定一个seed。此参数默认值为numpy的随机数生成器。
9.copy_x：布尔型，默认值=True
当我们precomputing distances时，将数据中⼼化会得到更准确的结果。如果把此参数值设为True，
则原始数据不会被改变。如果是False，则会直接在原始数据上做修改并在函数返回值时将其还原。但是在
计算过程中由于有对数据均值的加减运算，所以数据返回后，原始数据和计算前可能会有细小差别。
属性：
cluster_centers_：向量， [n_clusters, n_features] (聚类中⼼心的坐标)
Labels_: 每个点的分类
inertia_： float形
每个点到其簇的质⼼心的距离之和。
'''