参考文献
https://blog.csdn.net/u011204487/article/details/59624571
K-Means聚类算法步骤
优点
- 解决聚类问题的一种经典算法,简单、快速
- 对处理大数据集,该算法保持可伸缩性和高效性
- 当簇接近高斯分布时,它的效果较好。
缺点
- 在簇的平均值可被定义的情况下才能使用
- 在 K-means 算法中 K 是事先给定的,这个 K 值的选定是非常难以估计的
- 在 K-means 算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响
- 该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的;
- 若簇中含有异常点,将导致均值偏离严重(即:对噪声和孤立点数据敏感)
- 不适用于发现非凸形状的簇或者大小差别很大的簇。