一、概念
基于划分的聚类方法:给定m个对象的数据集D以及要生成的簇数k,划分算法把数据对象分成k个簇,C1,C2,...,Ck,使得Ci∩Cj=空集
目标函数用来评估划分的质量,使得簇内对象相互相似,而其他簇中对象相异
二、目标函数—误差平方和
使得生成的结果簇尽量紧凑和独立
三、k-Means算法
输入:k—簇的数目;D—包含m个对象的数据集
输出:k个簇的集合
从D中随机选择k个对象作为初始簇中心
Repeat
根据离簇中心的远近,将每个对象分配到相应的簇
更新簇均值,即重新计算每个簇中对象的均值作为簇中心
Until 不再发生变化
原理解释