聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
聚类方法:
一、层次聚类
层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。
(1)距离计算方法:
不管采用哪种方式,一个关键的问题就是距离的定义,在聚类时常见的距离定义方法有:Euclide距离、Chebyshev距离、绝对值距离(曼哈顿距离)、 Lance距离、 Minkowski距离、 定性变量距离。
其中p是一个变参数。当p=1时,就是曼哈顿距离,当p=2时,就是欧氏距离,当p→∞时,就是切比雪夫距离。
闵氏距离的缺点主要有两个:(1)将各个分量的量纲(scale)&#