文章目录
简介
- 除了K-Means快速聚类意外,还有两种常用的聚类算法
- 能够进一步提升快速聚类的速度的 Mini Batch K-Means 算法
- 能够和K-Means快速聚类形成性能上互补的算法 DBSCAN 密度聚类
Mini Batch K-Means
- 非常抱歉,需要先来一段理论基础做铺垫,速览即可!
- 在 K-Means 的基础上增加了一个 Mini Batch 的抽样过程,每轮迭代中心点时,不再代入全部数据、而是代入抽样的Mini Batch进行计算
- 第一轮先随机选出中心点,一般用 kmeans++ 选 ,更稳
- 从数据集中随机抽取一些数据(batch_size),把他们分配给最近的质心
- 根据小批量数据划分情况,更新质心
- 停止迭代的条件也有所不同
- 此处可以用梯度下降和小批量(Mini Batch)梯度下降之间的差异进行类比
- 梯度下降过程中,我们代入全部数据构造损失函数,相当于代入全部数据进行参数的更新,就类似于K-Means 代入每个簇