视频教程:第12讲:聚类算法——无监督学习浅谈
k-means算法是非监督聚类最常用的一种方法,因其算法简单和很好的适用于大样本数据,广泛应用于不同领域,本文详细总结了k-means聚类算法原理 。
算法思想:数据之间的相似度与它们之间的欧式距离成反比,根据数据之间的欧式距离将数据分成k类
(1) 首先随机生成k个聚类中心点。
(2) 根据已有的聚类中心点,将数据分成k类。分类的原则是数据离哪个聚类中心最近,它就被分为哪一类。这一步是EM算法中的E step。
(3) 根据分类结果,重新计算每个聚类的中心点。这一步是EM 算法中的M step。
(4)不断重复上述的E step和M step,直到聚类中心收敛(聚类中心不再变动)。
kmeas算法停止条件,满足其一即可
- 迭代超过最大轮数,即停止迭代
- 某次循环,没有数据点被重新分配到其他的簇,则算法结束迭代
- 某次循环,质心的位置没有发生变化,则算法结束迭代
- 某次循环,均方误差SSE递减的增量,小于预先设置的某个阈值,则算法结束迭代
目录
1. k-means聚类算法原理
2. k-means聚类算法步骤
3. k-means++聚类优化算法
4. 小批量处理的k-means聚类算法
5. k值的选取
6. k-means