K-Means聚类算法是一种基于距离的聚类算法,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则,最终的目标就是根据输入参数K,将数据对象分为K个簇。算法采用误差平方和准则函数作为聚类准则函数。
1. 基本思想:
1、指定需要划分的簇的个数K值
2、随机选取K个初始聚类中心
3、计算各个数据到这K个初始聚类中心的距离,把数据对象划分到最近的聚类中心所处的簇中
4、计算每一组的平均值,作为新的聚类中心
5、重复2~4直至中心点不再发生变化
一般情况下我们都是使用欧式几何距离作为聚类的目标函数:
d = ( x 1 2 − x 2 2 ) + ( y 1 2 − y 2 2 ) {\text{d}} = \sqrt {(x_1^2 - x_2^2) + (y_1^2 - y_2^2)} d=(x12−x22)+(y12−y