系统聚类法学习笔记
1. 前言
系统聚类分析是一种常用的对事物分类的方法,常见于生物学、心理学、社会学等领域。系统聚类法是用于将数据集合分为若干个类别的一种基于相似性度量的方法。
本篇文章将详细介绍系统聚类法的原理、常见算法、距离度量方法以及案例分析。
2. 原理
系统聚类法的本质是将样本集合通过聚合成群集的方式进行分类。其过程可以分为自下而上和自上而下两种方法。其中,自下而上(agglomerative)方法是从每个对象开始构建单个簇,然后递归地将最相似的簇合并在一起,直到所有对象都被归为一个簇;而自上而下(divisive)方法则是从整个样本集合作为单个簇开始,然后递归地将每个簇拆分为更小的簇,直到所有对象都被归为单独的簇。
通常来说,系统聚类法需要定义一个距离度量来衡量样本之间的相似度或距离,并将样本根据相似度或距离进行合并或分割。
3. 算法
常见的系统聚类法算法有以下三种:
3.1 最短距离法
最短距离法,也称为单连通性法(single linkage),是指将两个簇之间的最小距离作为这两个簇之间的距离,并不断寻找距离最小的两个簇进行合并。
3.2 最长距离法
最长距离法,也称为完全连通性法(complete linkage),是指将两个簇之间的最大距离作为这两个簇之间的距离,并不断寻找距离最大的两个簇进行合并。
3.3 类平均法
类平均法,是指将两个簇之间的所有点之间的距离取平均值作为这两个簇之间的距离,并不断寻找距离最小的两个簇进行合并。其中,常用的方法有UPGMA和WPGMA两种。
4. 距离度量
距离度量是系统聚类法中非常重要的一部分,常见的距离度量方法有以下几种:
4.1 欧氏距离
欧氏距离是指在欧几里得空间中两点之间的距离,计算公式如下:
d i j = ∑ k = 1 n ( x i k − x j k ) 2 d_{ij}=\sqrt{\sum_{k=1}^{n}(x_{ik}-x_{jk})^2} dij=k=1∑n(xik−xjk)2
其中, x i k x_{ik} xik和 x j k x_{jk} xjk表示第 i i i个和第 j j j个对象在第 k k k个特征上的取值。
4.2 曼哈顿距离
曼哈顿距离是指在坐标系中两点之间的距离,计算公式如下:
d i j = ∑ k = 1 n ∣ x i k − x j k ∣ d_{ij}=\sum_{k=1}^{n}|x_{ik}-x_{jk}| dij=k=1∑n∣xik−xjk∣
4.3 切比雪夫距离
切比雪夫距离是指在坐标系中两点之间横纵坐标差的最大值,计算公式如下:
d i j = max k ∣ x i k − x j k ∣ d_{ij}=\max_{k}|x_{ik}-x_{jk}| dij=kmax∣xik−xjk∣
5. 案例分析
以下是一个使用最短距离法进行系统聚类分析的案例:
假设我们有一个样本集合,其中包含5个数据点,这些数据点的二维坐标分别为:
(2, 10), (2, 5), (8, 4), (5, 8), (7, 5)
其中,在第2次合并时,我们将(x2,y2)和(x5,y5)合并成了一个簇;在第4次合并时,我们又将(x1,y1)和(x3,y3)合并成了一个簇;最后,我们将剩余的三个簇合并成了一个大簇。
6. 总结
系统聚类法是一种基于相似性度量的数据分类方法,常用于生物学、心理学、社会学等领域。其常见算法有最短距离法、最长距离法和类平均法,而距离度量则包括欧氏距离、曼哈顿距离和切比雪夫距离等。在实际应用中,我们需要根据数据类型和样本数量选择相应的聚类方法,并通过聚类图来判断样本的分类情况。