Mini Batch K-Means算法原理及API解析

最新推荐文章于 2025-02-04 18:19:18 发布

NongfuSpring-wu

最新推荐文章于 2025-02-04 18:19:18 发布

阅读量5.1k

点赞数 1

分类专栏：机器学习文章标签： Mini Batch K-means算法

本文链接：https://blog.csdn.net/weixin_41690708/article/details/95306204

版权

Mini Batch K-Means是K-Means的优化版本，通过随机抽取小批量数据加速收敛，减少计算时间。算法在每个小批量数据上更新质心，直至质心稳定或达到最大迭代次数。sklearn.cluster库提供了MiniBatchKMeans类，其参数如n_init、batch_size、reassignment_ratio等影响算法性能。此外，Mini Batch K-Means特有的partial_fit方法允许逐步训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

思想：

Mini Batch K-Means算法是K-Means算法的变种，采用小批量的数据子集减小计算时间，同时仍试图优化目标函数，这里所谓的小批量是指每次训练算法时所随机抽取的数据子集，采用这些随机产生的子集进行训练算法，大大减小了计算时间，与其他算法相比，减少了k-均值的收敛时间，小批量k-均值产生的结果，一般只略差于标准算法。

迭代步骤：
1：从数据集中随机抽取一些数据形成小批量，把他们分配给最近的质心
2：更新质心
与K均值算法相比，数据的更新是在每一个小的样本集上。对于每一个小批量，通过计算平均值得到更新质心，并把小批量里的数据分配给该质心，随着迭代次数的增加，这些质心的变化是逐渐减小的，直到质心稳定或者达到指定的迭代次数，停止计算

API

class sklearn.cluster.MiniBatchKMeans(n_clusters=8, init=’kmeans++’, max_iter=100, batch_size=100, verbose=0