聚类(clustering)是将物理或抽象对象的集合分成相似的对象类或簇的过程,是无监督学习【unsupervised learning】。
--基于划分
k-means 基本K均值方法
方法:
1.选择K个点作为初始质心
2.repeat
3. 将每个点指派到最近的质心,形成K个簇
4. 重新计算每个簇的质心
5.until 质心不再发生变化
优点:
聚类快
缺点:
a.常终止于局部最优
b.只适用于数值属性聚类
c.对噪声和异常值敏感
d.选择不同的初始值,可能产生不同的聚类结果
f.不适合发现非凸面的簇
二分K均值
方法:
1.初始化簇表,使之包含由所有的点组成的簇
2.repeat