聚类分析主要包括样本相似性度量,类与类间相似性度量两个步骤。
(1)样本的相似性度量
在对样本进在行聚类分析时,首先要确定样本的相似性度量,常用的样本相似性度量有马氏距离、车比雪夫距离、欧式距离等,下面介绍最常用的欧式距离法。
记是样本点集,距离是的一个函数,满足条件:
①
②
③
④
这一距离的定义满足正定性、对称性和三角不等式。在聚类分析中,对于定量变量,最常用的是闵氏距离,即
当时则得到欧式距离。
(2)类与类间的相似性度量
如果有两个样本类和,则可以用最短距离法、最长距离法、重心法、类平均法等方法度量它们之间的距离。下面介绍本文应用的类平均法。
它等于中两样本点距离的平均,分别为中的样本点个数。