【算法周】光说不练都是假的！K-means实践篇来啦~

最新推荐文章于 2024-06-25 16:27:26 发布

哈希大数据

最新推荐文章于 2024-06-25 16:27:26 发布

阅读量1.3k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/HashData2018/article/details/80745795

版权

本文详细介绍了K-Means聚类算法的实现，包括scikit-learn中的KMeans和MiniBatchKMeans类，以及它们的主要参数。通过实例展示了不同k值对聚类效果的影响，并使用Calinski-Harabasz Index评估聚类质量。同时，对比了KMeans和MiniBatchKMeans在实际应用中的表现。

摘要由CSDN通过智能技术生成

欢迎关注哈希大数据微信公众号《哈希大数据》

1. K-Means类概述

在scikit-learn中，包括两个K-Means的算法，一个是传统的K-Means算法，对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法，对应的类是MiniBatchKMeans。一般来说，使用K-Means的算法调参是比较简单的。

用KMeans类的话，一般要注意的仅仅就是k值的选择，即参数n_clusters；如果是用MiniBatchKMeans的话，也仅仅多了需要注意调参的参数batch_size，即我们的Mini Batch的大小。

当然KMeans类和MiniBatchKMeans类可以选择的参数还有不少，但是大多不需要怎么去调参。下面我们就看看KMeans类和MiniBatchKMeans类的一些主要参数。

2. KMeans类主要参数

KMeans类的主要参数有：

1) n_clusters: 即我们的k值，一般需要多试一些值以获得较好的聚类效果。k值好坏的评估标准在下面会讲。

2）max_iter：最大的迭代次数，一般如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛，此时可以指定最大的迭代次数让算法可以及时退出循环。

3）n_init：用不同的初始化质心运行算法的次数。由于K-Means是结果受初始值影响的局部最优的迭代算法，因此需要多跑几次以选择一个较好的聚类效果，默认是10，一般不需要改。如果你的k值较大，则可以适当增大这个值。

4）init：即初始值选择的方式，可以为完全随机选择'random',优化过的'k-means++'或者自己指定初始化的k个质心。一般建议使用默认的'k-means++'。

5）algorithm：有“auto”, “full” or “elkan”三种选择。"full"就是我们传统的K-Means算法， “elkan”是我们原理篇讲的elkan K-Means算法。默认的"auto"则会根据数据值是否是稀疏的，来决定如何选择"full"和“elkan”。一般数据是稠密的，那么就是 “elkan”，否则就是"full"。一般来说建议直接用默认的"auto"

3. MiniBatchKMeans类主要参数

MiniBatchKMeans类的主要参数比K-Means类稍多，主要有：

1) n_clusters: 即我们的k值，和KMeans类的n_clusters意义一样。

2）max_iter：最大的迭代次数，和KMeans类的max_iter意义一样。

3）n_init：用不同的初始化质心运行算法的次数。这里和KMeans类意义稍有不同，KMeans类里的n_init是用同样的训练集数据来跑不同的初始化质心从而运行算法。而MiniBatchKMeans类的n_init则是每次用不一样的采样数据集来跑不同的初始化质心运行算法。

4）batch_size：即用来跑Mini Batch KMeans算法的采样集的大小，默认是100.如果发现数据集的类别较多或者噪音点较多，需要增加这个值以达到较好的聚类效果。

5）init：即初始值选择的方式，和KMeans类的init意义一样。

6）init_size: 用来做质心初始值候选的样本个数，默认是batch_size的3倍，一般用默认值就可以了。

7）reassignment_ratio: