1. Mini Batch K-Means概述
Mini-Batch-K-MEANS算法是K-Means算法的变种,采用小批次量的数据子集减少计算时间。这里所谓的小批量是指每次训练算法时所随机抽取的数据子集,采用这些随机产生的子集进行训练算法,大大减小了计算时间,结果一般只略差于标准算法。
2. 算法步骤
1)从数据集中随机抽取一些数据形成小批量,把它们分配给最近的质心。
2)更新质心:与K均值算法相比,数据的过呢更新是在每一个小的样本集上。Mini Batch K-Means比K-Means有更快的收敛速度,但同时也降低了聚类的效果,但是在实际项目中却表现得不明显。
与K-Means算法对比如图:
3. 代码实现 – sklearn
注:数据集在文章末尾
from sklearn