算法原理
1. 算法解析:
聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中,对于不同的相似度计算方法会得到不同的聚类结果,常用的相似度计算法有欧氏距离法
聚类算法与分类算法的最大区别:
聚类算法是无监督的学习算法,而分类算法属于有监督(有标签)的学习算法
1. 1 K-means算法
K:初始中心点个数(计划聚类数),means :求中心点到其他数据点距离的平均值
K-meas算法的流程:
1.选择聚类的个数K
2.生成K个聚类中心点
3.计算所有样本点到聚类中心的距离,根据远近聚类
4.更新质心,迭代聚类
5.重复第4步直到满足收敛要求(通常就是确定的中心点不再改变)
由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,K-meas算法的收敛速度比较慢