聚类:对点集进行考察并按照某种距离测度将他们聚成多个簇的过程,目标是使得同一个簇内的点之间距离比较短,不同簇中点的距离较大
一般是从给定的数据中发现簇,尤其是大数据量及高维空间或非欧空间
点集是一种适合于聚类的数据集,每个点都是某空间下的对象,能够进行聚类的所有空间都有一个距离测度,即空间下任意两点的距离
聚类策略:
- 层次(hierarchical或者凝聚式agglomerative)算法。这类算法一开始将每个点看成一个簇,簇与簇之间按照接近度来组合,当进一步的组合导致产生非期望结果时,组合过程结束。如:达到预定的簇数目,根据簇的密度判断
- 点分配(point assignment),按照某个顺序依次考虑每个点,并将它分配到最合适的簇中
也可以按照其他方式:是否在欧氏空间下,或者算法对于任意距离测度都有效,需要注意到:欧氏空间下点集可以概括为质心(点的平均),非欧空间没有质心的概念
高维空间下的距离测度:
维数灾难的一个表现:高维空间下几乎所有的点对之间的距离都差不多相等,或者任意的两个向量间是近似正交的