Mini Batch K-Means使用详解（scikit-learn）

最新推荐文章于 2024-07-29 15:57:11 发布

o0fatman0o

最新推荐文章于 2024-07-29 15:57:11 发布

阅读量1.4w

点赞数 2

分类专栏：机器学习文章标签：聚类 scikit-learn

本文链接：https://blog.csdn.net/qq_34104548/article/details/79342598

版权

Mini Batch K-Means是针对大数据场景优化的K-Means算法，它通过采样数据加速计算，牺牲部分精度以换取更快的速度。在scikit-learn中，可以通过MiniBatchKMeans类实现该算法，关键参数包括batch_size、n_init等，且提供了partial_fit方法支持增量训练。

摘要由CSDN通过智能技术生成

Mini Batch K-Means是K-Means算法的一种优化方案，主要优化了数据量大情况下的计算速度。与标准的K-Means算法相比，Mini Batch K-Means加快了计算速度，但是降低了计算精度，但是在数据量大的情况下这个精度的下降基本可以忽略。通常在数据量较大的情况下采用Mini Batch K-Means算法有更好的效果。

Mini Batch K-Means每次迭代不采用所有样本，而是每次等量的采样，然后进行中心节点的更新。

要使用kmeans算法的话，首先需要进行import：from sklearn.cluster import MiniBatchKMeans

scikit-learn中，通过MiniBatchKMeans进行对象的新建，并传入算法参数进行参数设置，其中与K-Means相同的参数包括n_clusters、max_iter、tol 、init、random_state 、verbose，具体含义参考如下：

http://blog.csdn.net/qq_34104548/article/details/79336584

其他修改或者增加的参数如下