（《机器学习》完整版系列）第9章聚类——9.5 密度聚类与层次聚类（DBSCAN算法、AGNES算法）

人工干智能

已于 2023-03-31 10:44:53 修改

阅读量610

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：聚类算法机器学习

于 2023-03-03 12:47:00 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129296793

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 35 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

DBSCAN是一种基于密度的聚类算法，使用邻域参数(ε,MinPts)来识别数据集中的紧密区域。核心对象是满足特定密度条件的样本，它们之间的密度可达关系定义了簇的结构。AGNES算法则是层次聚类方法，自底向上合并距离最近的簇。两种算法对簇的定义和构建方式有所不同，但都依赖于特定的距离度量标准。

摘要由CSDN通过智能技术生成

DBSCAN以邻域参数 $(\epsilon ,\mathrm{MinPts})$ 来刻画分布的紧密程度。
AGNES算法找距离最近的两簇进行合并。

密度聚类

高斯混合聚类是从样本 $\boldsymbol{x }$ 的分布密度入手建立概率模型，这里仍从分布密度入手，但考察样本之间的连接性。 DBSCAN以邻域参数 $(\epsilon ,\mathrm{MinPts})$ 来刻画分布的紧密程度。对数据集 $D=\{\boldsymbol{x }_i\}_{i=1}^m$ ，设定一个稠密标准，样本周围达到这个标准，则称该样本为核心对象，通俗地讲：核心样本就是以该样本为球心，半径为 $\epsilon$ 的球内及球上（称为 $\epsilon$ -邻域）至少包含 $\mathrm{MinPts}$ 个样本。

显然，一个样本能否称为核心对象与两参数 $(\epsilon ,\mathrm{MinPts})$ 有关，故将这两参数作为认定密度标准。一旦确定了该标准就可以对数据集 $D$ 进行考察。

核心对象 $\boldsymbol{x }_i$ 到达其邻域内的点 $\boldsymbol{x }_j$ 称为密度直达。可以设想核心为巴士总站，它到其邻域内每一站点都有一直达巴士但是单向的。用有向线段表示密度直达： $(\boldsymbol{x }_i\rightarrow \boldsymbol{x }_j)$ ，若 $\boldsymbol{x }_j$ 也是核心对象，才有回程直达 $(\boldsymbol{x }_j\rightarrow \boldsymbol{x }_i)$ 。

密度可达可以理解为可换乘到达：通过一系列的核心对象站点换乘上述单向直达巴士从 $\boldsymbol{x }_i$ 到达 $\boldsymbol{x }_j$ 。若两个人从同一点分别向两个不同方向出发，按密度可达方式各自到达一个站点，则这两个站点称为密度相连。密度可达当然是密度相连，因为其中一人坐了0站。【西瓜书图9.8】给出了概念的图示。

有了上述概念，就可以定义簇：若 $\boldsymbol{x }_i$ 与 $\boldsymbol{x }_j$ 密度相连，则 $\boldsymbol{x }_i$ 与 $\boldsymbol{x }_j$ 属于同一簇。与前述聚类不同的是，这里没有指定簇的个数，而是指定簇的标准，即超参数为 $(\epsilon ,\mathrm{MinPts})$ ，它隐式地决定了簇的个数，如【西瓜书图9.10】示例，由 $(\epsilon=0.11 ,\mathrm{MinPts}=5)$ 在数据集上划分的簇数为4。

【西瓜书图9.9】DBSCAN算法分为两部分：

（1）找出所有核心对象 $\Omega$ ，第2-7句。

（2）依超参数 $(\epsilon ,\mathrm{MinPts})$ 指定的标准，依次找出簇 $C_1,C_2,\cdots,C_n$ ，第10-24句。

$L$ 为未访问的样本的集合，这里的“访问”就是指前述坐单向巴士去，而 $L_{\mathrm{old}}$ 为 $L$ 的备份。第（2）部分包含两层循环：

第一层，基于核心对象集合 $\Omega$ 的循环，第10句。循环体为：

任意取出一核心对象 $o$ ，第12句。
找出含核心对象 $o$ 的簇 $C_k$ ，第22句。找的过程留待第二层处理。
$\Omega$ 中剔除簇 $C_k$ 中的核心对象，第23句。

第一层循环过程中 $k$ 递增，最后的 $k$ 即为簇数 $n$ 。

第二层，基于工作队列（或集合） $Q$ 的循环，第14句。 $Q$ 的初始化为第一层选定的样本（核心对象 $o$ ），第12句。循环体为：

$Q$ 中取出 $q$ ， $Q$ 中减少一个元素 $q$ ，第15句。
当 $q$ 为核心对象（第16句）时，从 $q$ 出发乘巴士直达未去过的点，将其全部放入 $Q$ ，第17-18句。
上述巴士“访问”过的点从 $L$ 中剔除，第13句和第19句。

第二层循环中形成访问链，即为通过 $q$ 出发能密度达到的样本，循环完后，说明所有的通过 $q$ 出发能访问（密度达到）的样本已全部从 $L$ 中剔除，因此，剔除的样本集（ $L_{\mathrm{old}}\setminus L$ ）即为由 $o$ 导出的簇 $C_k$ ，第22句。

层次聚类

AGNES算法【西瓜书图9.11】是采用“自底向上”，原理比较简单。其技巧在于建立一个二维表（或矩阵），元素为 $M (i, j) = d (C i, C j)$ ，第4-8句所述。由于距离的对称性，故实际只需考虑上三角形。

找出二维表中的最小值，设为 $M(i^*,j^*),\ (i^*<j^*)$ ，则进行合并（向编号小的合并）：

将 $C_{j^*}$ 并入 $C_{i^*}$ ，第13句。
第 ${j^*+1}$ 簇及之后的簇编号向前递进一位（对应于表中的第 ${j^*}$ 后续列左移、行上移），第14-16句。
矩阵中与 $j^*$ 相关的删除：去掉第 $j^*$ 行、第 $j^*$ 列，第17句。
矩阵中与 $i^*$ 相关的重新计算 $M$ ，第18-21句。

反复执行上述操作，直到簇数 $q$ 降直设定的值 $k$ 。

需要指出的是算法对“距离”的选用并没有作限制，即可取（7、有趣的距离与范数）中定义的集合间的距离，不同的距离对算法有不同的影响，
如图9.2所示，左图以簇间样本的最小距离作为簇间距离（虚线所示），右图以簇间样本的最大距离作为簇间距离（虚线所示）。

图9.2 簇间距离

【西瓜书图9.11】AGNES算法中第12、13句找距离最近的两簇进行合并，当簇间距离依“最小距离”定义时，距离最近的两簇为 $A$ 和 $B$ ，即 $A$ 和 $B$ 合并；
当簇间距离依“最大距离”定义时，距离最近的两簇为 $A$ 和 $C$ ，即 $A$ 和 $C$ 合并。

如图9.2所示，左图中当 $A$ 的左端向左或 $B$ 的右端向右延伸，最小距离法并没有去限定，这时，最小距离法会使合并后的簇中样本间的方差变大。即最小距离法没有考虑簇的“体量”，而最大距离法则考虑簇的“体量”，右图中当 $A$ 的左端向右或 $B$ 的右端向左压缩后，会使得 $A$ 与 $B$ 的距离变小，从而导致 $A$ 与 $B$ 合并。