机器学习(26)之K-Means实战与调优详解

最新推荐文章于 2024-01-07 21:18:08 发布

机器学习算法与Python学习

最新推荐文章于 2024-01-07 21:18:08 发布

阅读量1.9k

点赞数 1

本文链接：https://blog.csdn.net/Mbx8X9u/article/details/78581877

版权

本文详细介绍了如何使用scikit-learn进行K-Means聚类，重点讨论了如何选择合适的k值。KMeans和MiniBatchKMeans的主要参数和调优技巧被阐述，包括n_clusters、max_iter、n_init等。此外，文章提到了评估聚类效果的Calinski-Harabasz指数，并通过实例展示了不同k值下的聚类效果和分数。

摘要由CSDN通过智能技术生成

微信公众号

关键字全网搜索最新排名

【机器学习算法】：排名第一

【机器学习】：排名第一

【Python】：排名第三

【算法】：排名第四

前言

在K-Means聚类算法原理（机器学习(25)之K-Means聚类算法详解）中对K-Means的原理做了总结，本文来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。

K-Means类概述

在scikit-learn中，包括两个K-Means的算法，一个是传统的K-Means算法，对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法，对应的类是MiniBatchKMeans。一般来说，使用K-Means的算法调参是比较简单的。用KMeans类的话，一般要注意的仅仅就是k值的选择，即参数n_clusters；如果是用MiniBatchKMeans的话，也仅仅多了需要注意调参的参数batch_size，即我们的Mini Batch的大小。当然KMeans类和MiniBatchKMeans类可以选择的参数还有不少，但是大多不需要怎么去调参。

K-Means类主要参数

KMeans类的主要参数有：

1) n_clusters: 即k值，一般需要多试一些值以获得较好的聚类效果。k值好坏的评估标准在下面会讲。

2）max_iter： 最大的迭代次数，一般如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛，此时可以指定最大的迭代次数让算法可以及时退出循环。

3）n_init：用不同的初始化质心运行算法的次数。由于K-Means是结果受初始值影响的局部最优的迭代算法，因此需要多跑几次以选择一个较好的聚类效果，默认是10，一般不需要改。如果你的k值较大，则可以适当增大这个值。

4）init： 即初始值选择的方式，可以为完全随机选择'random',优化过的'k-means++'或者自己指定初始化的k个质心。一般建议使用默认的'k-means++'。

5）algorithm：有“auto”, “full” or “elkan”三种选择。"full"就是我们传统的K-Means算法， “elkan”是（