层次聚类
步骤
(1)从N个数据对象分别位于不同的聚类类群开始,根据距离矩阵,距 离最近的两个类群先被选中,合并为一个新的聚类类群,从而定义出一个具有N-1个聚类类群的数据划分方案。
(2)距离矩阵中,与合并前的两个聚类类群相关的部分替换为这个新形成的聚类类群,并计算新类群和其他类群之间的距离。
(3)重复上述过程,直到所有聚类类群合并为一个最终的聚类类群。
根据距离计算方法的不同,层次聚类可以分为以下几类:
1、单连接聚类
采用两个类群中彼此间距离最近的两个对象的距离来当作聚类类群的距离。
2、全连接聚类
采用两个类群中彼此间距离最远的两个对象的距离来当作聚类类群的距离。
3、非加权中心组对法(UPGMC)
采用两个类群中心的距离来当作聚类类群的距离。
4、非加权平均组对法(UPGMA)
将两个聚类类群中的所有数据对象两两计算距离然后取平均作为两个聚类类群之间的距离。
k均值聚类
步骤
(1)生成k个数据点,作为k个聚类类群的中心。这些数据点可以 是随机生成的,也可以从数据中随机选出的样品点。
(2)采用指定的距离计算方法,将每一个数据点归入离其最近的
中心所代表的类群。
(3)在所有数据点都归入相应的聚类类群后,重新计算每个聚类类群的中心。
(4)该