聚类
1.表示聚类结果的方法
1.一个实例可以落入一个组
2.一个实例可以落入多个组
3.一个实例可以部分分到其他组(概率)
2.基于距离
1.代表
K-means
2.k-means改进
动机一:速度慢
-
将数据集投影,按照选定的轴进行分裂,来取代由选择最近的聚类中心所意味着使用的任意超平面分裂法。该方法会由于降维破坏数据
-
Kd树/球树(有效)
Q:做法
A:
创建一个kd树/球树,在聚类过程中保持不变。
每一次K均值迭代过程中产生一组聚类中心,所有数据点分配到最近的聚类中心
从树向下寻找叶节点,分别检查叶节点上的每一个点,从而寻找聚类中心。如果较高位置的内部结 点 的区域完全落入了某个单独的聚类中心范围内,聚类计算总值得到更新。否则,向下搜索。
Q:如何获得中心?
A:跟K-means一样