算法描述
输入:簇的数目k和包含n个对象的数据库。
输出:k个簇,使平方误差准则最小。
算法步骤:
1.为每个聚类确定一个初始聚类中心,这样就有K 个初始聚类中心。
2.将样本集中的样本按照最小距离原则分配到最邻近聚类
3.使用每个聚类中的样本均值作为新的聚类中心。
4.重复步骤2.3直到聚类中心不再变化。
5.结束,得到K个聚类
伪代码
创建k个点作为起始质心(经常随机选择)
当任意一个点的簇分配结果发生改变时
对于数据集中的每个数据点
对每个质心
计算质心于数据点之间的距离
将数据点分