聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。
聚类算法涉及了2个基本问题——性能度量和距离计算(详见单独Blog)
维度灾难
在开始聚类前,先了解一个概念——维度灾难。
高维的欧式空间具有一些非直观的有时被称为“维度灾难”的性质。非欧式空间也往往具有同样的反常情况。“灾难”的一个表现时,在高维空间下,几乎所有的点对之间的聚类都差不多相等。另一个表现时,几乎任意的两个向量之间都是近似正交的。
性能度量
性能度量外部指标:
- Jaccard系数(Jaccard Coeffient)
- FM指数(Fowlkes and Mallows Index)
- Rand指数(Rand Index)
性能度量外部指标:
- DB指数(Davies-Bouldin Index)
- Dunn指数(Dunn Index)
原型聚类
k均值算法(详见单独Blog)
k均值算法以k个随机质心开始。算法会计算每个点到质心的距离。每个点会被分配到距其最近的簇质心,然后紧接着基于新分配到的簇的点更新簇质心。以上过程重复数次至簇质心不变为止。
影响k-means效果的几个因素:初始簇质心、K值、距离度量