K-means算法的参数详解

最新推荐文章于 2024-01-07 21:18:08 发布

噶噶~

最新推荐文章于 2024-01-07 21:18:08 发布

阅读量3.4k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42587745/article/details/110063091

版权

机器学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

参数名称	默认值及输入类型	参数解释
algorithm	默认：Auto 有auto、full和elkan三种选择。	algorithm: 优化算法的选择，有auto、full和elkan三种选择。 full就是一般意义上的K-Means算法， elkan是使用的elkan K-Means算法。 auto则会根据数据值是否是稀疏的(稀疏一般指是有大量缺失值)，来决定如何选择full和elkan。如果数据是稠密的，就选择elkan K-means，否则就使用普通的Kmeans算法。
copy_x	True	主要起作用于提前计算距离的情况，如果是True,则表示在源数据的副本上提前计算距离时，不会修改源数据。
init	默认值为‘k-means++’ 有三个可选值：‘k-means++’、‘random’、或者传递一个ndarray向量。	(1)‘k-means++’ 用一种特殊的方法选定初始质心从而能加速迭代过程的收敛（1）、从输入的数据点集合（要求有k个聚类）中随机选择一个点作为第一个聚类中心；（2）、对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)；（3）、选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大；（4）、重复2和3直到k个聚类中心被选出来 (2)‘random’ 随机从训练数据中选取初始质心。 (3)如果传递的是一个ndarray，则应该形如 (n_clusters, n_features) 并给出初始质心。
max_iter	默认值为300 int型，	最大迭代数。
n_clusters	默认为8 int型	生成的聚类数，
n_init	默认值为10 int型	用不同的聚类中心初始化值运行算法的次数，最终解是在inertia意义下选出的最优结果。
n_jobs	int型。	指定计算所用的进程数。内部原理是同时进行n_init指定次数的计算。 -1，则用所有的CPU进行运算。若值为1，则不进行并行运算若值小于-1，为-2，则用到的CPU数为总CPU数减1。
precompute_distances	默认值是auto auto,True,False三个参数值可选	是否需要提前计算距离如果选择auto，当样本数*质心数>12兆的时候，就不会提前进行计算，如果小于则会与提前计算。提前计算距离会让聚类速度很快，但是也会消耗很多内存。
random_state	默认值为numpy.RandomState 类型，还可以选择int型	用于初始化质心的生成器（generator）。如果值为一个整数，则确定一个seed。
tol	1e-4	float型，容忍的最小误差，当误差小于tol就会退出迭代，与inertia结合来确定收敛条件。
verbose	默认为0	是否输出详细信息，

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
K-means算法的参数详解

参数名称默认值及输入类型参数解释 algorithm 默认：Auto 有auto、full和elkan三种选择。 algorithm: 优化算法的选择，有auto、full和elkan三种选择。 full就是一般意义上的K-Means算法， elkan是使用的elkan K-Means算法。 auto则会根据数据值是否是稀疏的(稀疏一般指是有大量缺失值)，来...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。