机器学习之密度聚类算法DBSCAN

最新推荐文章于 2024-07-19 16:20:14 发布

语亦情非

最新推荐文章于 2024-07-19 16:20:14 发布

阅读量1.2k

点赞数

分类专栏：机器学习数据挖掘面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1272899331/article/details/104794417

版权

机器学习同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

数据挖掘面试

25 篇文章 1 订阅

订阅专栏

密度聚类引入

前面介绍了有关 Kmeans 聚类算法的理论和实战，也提到了该算法的两个致命缺点，一

是聚类效果容易受到异常样本点的影响；二是该算法无法准确地将非球形样本进行合理的聚

类。为了弥补 Kmeans 算法的两方面缺点，本章将介绍另一种聚类算法，即基于密度的聚类

DBSCAN （ Density-Based Special Clustering of Applications with Noise ）， “ 密度 ” 可以理解为样本

点的紧密程度，而紧密度的衡量则需要使用半径和最小样本量进行评估，如果在指定的半径

领域内，实际样本量超过给定的最小样本量阈值，则认为是密度高的对象。 DBSCAN 密度聚类

算法可以非常方便地发现样本集中的异常点，故通常可以使用该算法实现异常点的检测。

同时，也会介绍层次聚类算法，该算法比较适合小样本的聚类，它是通过计算各个簇内样

本点之间的相似度，进而构建一棵有层次的嵌套聚类树。该算法仍然不适合非球形样本的聚

类，但它与 Kmeans 算法类似，可以通过人为设定聚类个数实现样本点的聚合，相比于密度聚类

来说，似乎会方便很多。

密度聚类的步骤

（ 1 ）为密度聚类算法设置一个合理的半径 ε 以及 ε 领域内所包含的最少样本量 MinPts 。

（ 2 ）从数据集中随机挑选一个样本点 p ，检验其在 ε 领域内是否包含指定的最少样本量，如

果包含就将其定性为核心对象，并构成一个簇 C ；否则，重新挑选一个样本点。

（ 3 ）对于核心对象 p 所覆盖的其他样本点 q ，如果点 q 对应的 ε 领域内仍然包含最少样本量

MinPts ，就将其覆盖的样本点统统归于簇 C 。

（ 4 ）重复步骤（ 3 ），将最大的密度相连所包含的样本点聚为一类，形成一个大簇。

（ 5 ）完成步骤（ 4 ）后，重新回到步骤（ 2 ），并重复步骤（ 3 ）和（ 4 ），直到没有新的样本点可以

生成新簇时算法结束。

参数

eps ：用于设置密度聚类中的 ε 领域，即半径，默认为 0.5 。

min_samples ：用于设置 ε 领域内最少的样本量，默认为 5 。

metric ：用于指定计算点之间距离的方法，默认为欧氏距离。

metric_params ：用于指定 metric 所对应的其他参数值。

algorithm ：在计算点之间距离的过程中，用于指定搜寻最近邻样本点的算法。默认

为 'auto' ，表示密度聚类会自动选择一个合适的搜寻方法。如果为 'ball_tree' ，则表示使用

球树搜寻最近邻。如果为 'kd_tree' ，则表示使用 K-D 树搜寻最近邻。如果为 'brute' ，则表示

使用暴力法搜寻最近邻。有关这几种最近邻搜寻方法，可以参考第 11 章的内容。

leaf_size ：当参数 algorithm 为 'ball_tree' 或 'kd_tree' 时，用于指定树的叶子节点中所包含的

最多样本量，默认为 30 ；该参数会影响搜寻树的构建和搜寻最近邻的速度。

p ：当参数 metric 为闵可夫斯基（ 'minkowski' ）距离时， p=1 ，表示计算点之间的曼哈顿距

离； p=2 ，表示计算点之间的欧氏距离；该参数的默认值为 2 。

n_jobs ：用于设置密度聚类算法并行计算所需的 CPU 数量，默认为 1 ，表示仅使用 1 个 CPU

运行算法，即不使用并行运算功能。

需要说明的是，在 DBSCAN 类中，参数 eps 和 min_samples 需要同时调参，即通常会指定几个候选值，并从候选值中挑选出合理的阈值。在参数 eps 固定的情况下，参数 min_samples 越大，

所形成的核心对象就越少，往往会误判出许多异常点，聚成的簇数目也会增加。反之，会产生

大量的核心对象，导致聚成的簇数目减少。在参数 min_samples 固定的情况下，参数 eps 越大，就

会导致越多的点落入到 ε 领域内，进而使核心对象增多，最终使聚成的簇数目减少；反之，会导

致核心对象大量减少、最终聚成的簇数目增多。在参数 eps 和 min_samples 不合理的情况下，簇

数目的增加或减少往往都是错误的。例如，应该聚为一类的样本由于簇数目的增加而聚为多

类，不该聚为一类的样本由于簇数目的减少而聚为一类。

密度聚类与Kmeans的比较

Kmeans 聚类的短板是无法对非球形的簇进行聚类，同时也非常容易受到极端值的影响，

而密度聚类则可以弥补它的缺点。如果用于聚类的原始数据集为类球形，那么密度聚类和

Kmeans 聚类的效果基本一致。接下来通过图形的方式对比两种算法的聚类效果。

密度聚类算法可以发现任何形状的样本簇，而且该算法具有很强的抗噪声

能力。算法具有这些优点的背后是需要用户设定合理的半径 ε 和对应领域内最少的样本数量

MinPts ，

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习之密度聚类算法DBSCAN

密度聚类引入前面介绍了有关Kmeans聚类算法的理论和实战，也提到了该算法的两个致命缺点，一是聚类效果容易受到异常样本点的影响；二是该算法无法准确地将非球形样本进行合理的聚类。为了弥补Kmeans算法的两方面缺点，本章将介绍另一种聚类算法，即基于密度的聚类 DBSCAN（Density-Based Special Clustering of Applications w...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。