第十四章聚类方法.14.2聚合聚类距离公式介绍

最新推荐文章于 2023-02-16 09:18:32 发布

oldmao_2000

最新推荐文章于 2023-02-16 09:18:32 发布

阅读量7.9k

点赞数 2

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/oldmao_2001/article/details/115837685

版权

统计学习方法专栏收录该内容

36 篇文章 16 订阅

订阅专栏

文章目录

主要内容
聚合聚类的具体过程
聚合聚类算法与案例
系统聚类法基本思想
八种距离方法

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考：在线Latex公式

主要内容

聚合聚类的具体过程：距离或相似度、合并规则、停止条件
聚合聚类算法与案例：算法流程、基于欧式距离的层次聚类过程
系统聚类法基本思想：类间距离、对称表、递推公式
最短距离法与最长距离法：定义距离与递推公式
中间距离法：几何意义与递推公式
类平均法与可变类平均法：定义距离与递推公式
离差平方和法与可变法：定义距离与递推公式
重心法：定义距离与递推公式

聚合聚类的具体过程

对于给定的样本集合，开始将每个样本分到⼀个类；然后按照⼀定规则，例如类间距离最⼩，将最满⾜规则条件的两个类进⾏合并；如此反复进⾏，每次减少⼀个类，直到满⾜停⽌条件，如所有样本聚为⼀类。
聚合聚类需要预先确定下⾯三个要素
• 距离或相似度
闵可夫斯基距离
⻢哈拉诺⽐斯距离
相关系数
夹⻆余弦
• 合并规则阈值
类间距离最⼩
类间距离可以是最短距离、最⻓距离、中⼼距离、平均距离
• 停⽌条件
停⽌条件可以是类的个数达到阈值（极端情况类的个数是1)
类的直径超过阈值

聚合聚类算法与案例

输入：n个样本组成的样本集合及样本之间的距离；
输出：对样本集合的一个层次化聚类。
（1）计算 $n$ 个样本两两之间的欧氏距离 ${d_i\}$ ，记作矩阵 $D=[d_{ij}]_{n\times n}$
（2）构造 $n$ 个类，每个类只包含一个样本。
（3）合并类间距离最小的两个类，其中最短距离为类间距离，构建一个新类。
（4）计算新类与当前各类的距离。若类的个数为1，终止计算，否则回到步（3）。
可以看出聚合层次聚类算法的复杂度是 $O(n^3m)$ ，其中 $m$ 是样本的维数， $n$ 是样本个数。
这里稍微推一下时间复杂度，第一次计算 $n$ 个样本两两之间的欧氏距离这里会产生 $C_n^2$ 个距离；
然后合并两个样本后，得到一个新类，剩下的 $n - 2$ 个样本和新类的所有样本要计算一次距离，此时计算量为： $(n-2)\times2$ ；
然后这个时候总类别数为 $n - 2 + 1$ ，然后再合并两个类得到3个样本，然后和其他每个样本进行计算，计算量为： $(n-3)\times3$
以此类推，所有所有类合并后：
$C_n^2+(n-2)\times2+(n-3)\times3+\cdots+1\times(n-1)$
由于每个样本是m维的，因此每个维度上都要经过上面的计算，因此总计算量为：
$m[C_n^2+(n-2)\times2+(n-3)\times3+\cdots+1\times(n-1)]\approx O(n^3m)$

例子：
给定5个样本的集合，样本之间的欧氏距离由如下矩阵D表示
$D=[d_{ij}]_{5\times5}=\begin{bmatrix} 0 & 7& 2 & 9&3 \\ 7 & 0& 5 & 4&6 \\ 2 & 5& 0& 8 & 1\\ 9 & 4& 8 & 0 &5 \\ 3 & 6& 1& 5 & 0 \end{bmatrix}$
其中 $d_{ij}$ 表示第 $i$ 个样本与第 $j$ 个样本之间的欧⽒距离。
• 显然 $D$ 为对称矩阵。应⽤聚合层次聚类法对这5个样本进⾏聚类。
1.最短类间距出现在第三行第五列，把这两个样本加入新类，记做：
$G_6=\{x_3,x_5\}$
2.锁定第三列和第五列，从第一行到最后一行逐行找出最小距离：
$d_{1G_6}=2\\ d_{2G_6}=5\\ d_{4G_6}=5$
我们可以看到出现最小距离在第一行，因此把第一个样本加进来，记为：
$G_7=\{x_1,x_3,x_5\}$
3.观察 $G_7$ 和剩下样本的距离：
$d_{2G_7}=5\\ d_{4G_7}=5$
然后剩下样本之间也有距离：
$d_{24}=4$
3.判断距离后合并剩下两个样本：
$G_8=\{x_2,x_4\}$
4.合并得到最后结果：
$G_9=\{G_7,G_8\}$
即将全部样本聚成1类，聚类终⽌
在这里插入图片描述

系统聚类法基本思想

1、根据样品的特征，规定样品之间的距离 $d_{ij}$ ，共有 $C_n^2$ 个。将所有列表，记为 $D (0)$ 表，该表是⼀张对称表。所有的样本点各⾃为⼀类
2、选择 $D (0)$ 表中最⼩的⾮零数，不妨假设为 $d_{pq}$ ，于是将 $G_p$ 和 $G_q$ 合并为⼀类，记为，
$G_r=\{G_p,G_q\}$
3、在 $D(i),i=0,1,\cdots,n-1$ 表中选择最⼩的⾮零数，其对应的两类有构成新类，利⽤递推公式（下面讲）计算新类与其他类间的距离。
4、分别删除 $D (i)$ 表的相应的⾏和列，并新增⼀⾏和⼀列添上的新类和旧类之间的距离，产⽣ $D (i + 1)$ 表。类推直⾄所有的样本点归为⼀类为⽌。

八种距离方法

1、最短距离法
假设第 $p$ 类和第 $q$ 类合并成第 $r$ 类，第 $r$ 类与其它各旧类的距离按最短距离法为：
定义距离：
$D_{pq}=\min\{d_{ij}:x_i\in G_p,x_j\in G_q\}$
递推公式：
$D_{rl}=\min\{D_{pl},D_{ql}\}\quad l\ne p,q$
2、最⻓距离法
假设第 $p$ 类和第 $q$ 类合并成第 $r$ 类，第 $r$ 类与其它各旧类的距离按最⻓距离法为：
定义距离：
$D_{pq}=\max\{d_{ij}:x_i\in G_p,x_j\in G_q\}$
递推公式：
$D_{rl}=\max\{D_{pl},D_{ql}\}\quad l\ne p,q$
3、中间距离法
假设第 $p$ 类和第 $q$ 类合并成第 $r$ 类，第 $r$ 类与其它各旧类的距离按中间距离法的递归公式为：
$D_{rl}^2=\cfrac{1}{2}D_{pl}^2+\cfrac{1}{2}D_{ql}^2-\cfrac{1}{4}D_{pq}^2$
这里利用了平行四边形的对角线性质，对角线平方等于四边平方和。下节要证明。。。
4、类平均法
类平均法定义类间的距离是两类间样品距离的平均数。假设第 $p$ 类和第 $q$ 类合并成第 $r$ 类，第 $r$ 类与其它各旧类的距离按类平均法为：
$D_{pq}^2=\cfrac{1}{n_pn_q}\sum_{x_i\in G_p}\sum_{x_j\in G_q}D_{ij}^2=\cfrac{n_pD_{pl}+n_qD_{lq}}{n_p+n_q}$
5、可变类平均法
类平均法的递推公式中，没有反映 $G_p$ 类和 $G_q$ 类距离的影响，进⼀步调整，加⼊ $D^2_{pq}$ ，并给定系数 $\beta<1$ ，则类平均法的递推公式改为：
$D_{pq}^2=(1-\beta)\cfrac{n_pD_{pl}+n_qD_{lq}}{n_p+n_q}+\beta D^2_{pq}$
$\beta$ 的⼤⼩根据两项间相对重要性决定。
6、离差平⽅和法
类似于⽅差分析的想法，如果类分得恰当，同类内的样品之间的离差平⽅和应较⼩，⽽类间的离差平⽅和应当较⼤。定义距离为离差平方和的增量：
$D_{pq}^2=S^2_r-S^2_p-S^2_q$
其中 $S^2_r$ 是由 $G_p$ 和 $G_q$ 合并成的 $G_r$ 类的类内离差平⽅和。可以证明离差平⽅和的聚类公式为
$D^2_{rk}=\cfrac{n_k+n_p}{n_r+n_k}D^2_{pk}+\cfrac{n_k+n_q}{n_r+n_k}D^2_{qk}+\cfrac{n_k}{n_r+n_k}D^2_{pq}$
7、可变⽅法
如果让中间距离法的递推公式前两项的系数也依赖于 $\beta$ ，则递推公式为：
$D^2_{rk}=\cfrac{1-\beta}{2}(D^2_{kp}+D^2_{kq})+\beta D^2_{pq},\beta<1$
⽤上式作为递推公式的系统聚类法称为可变法。
8、重⼼法
重⼼法，也称样品均值法。设 $G_p$ 和 $G_q$ 为两个类：
$\bar X_p=\cfrac{1}{n_p}\sum_{x_i\in G_p}^{n_p}x_i,\bar X_q=\cfrac{1}{n_q}\sum_{x_i\in G_q}^{n_q}x_i$
分别是 $G_p$ 和 $G_q$ 的重⼼，类与类之间的距离定义为两个类重⼼（类内样品平均值）间的平⽅距离。
假设第 $p$ 类和第 $q$ 类合并成第 $r$ 类，第 $r$ 类与其它各旧类的距离按重心法的递归公式为：
$D_{rl}=||\bar x_r-\bar x_l||=\left \|\cfrac{1}{n_p+n_q}\sum_{x_i\in(G_p+G_q)}x_i-\cfrac{1}{n_l}\sum_{x_i\in G_l}x_i\right\|\\ =\cfrac{n_p}{n_r}D_{pl}^2+\cfrac{n_q}{n_r}D_{ql}^2-\cfrac{n_pn_q}{n_r^2}D_{pq}^2$