机器学习--聚类算法（第二篇：DBSCAN算法）

小林要编程

已于 2024-04-28 20:05:48 修改

阅读量567

点赞数 23

文章标签：机器学习算法聚类

于 2024-04-28 20:04:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_82661791/article/details/138288452

版权

#前言

本篇博客继上一篇聚类算法的介绍，给大家再介绍一种功能更为强大的聚类算法--DBSCAN算法，这也是目前市面上较为流行的一种聚类算法，相较于K-MEANS算法，个人认为它功能更加全面，使用范围和使用效果更好！接下来我就对此算法进行一个简单的介绍。

#DBSCAN算法相关的基本概念介绍

1.核心对象：若某个点的密度达到算法设定的阈值则其为核心点。

$\varepsilon$ -领域的距离阈值：设定的半径r。

以上这两个概念需要综合起来来理解，我们的算法会依据我们输入的两个参数（最小密度：也就是在特定范围内目标的个数，特定范围的半径）遍历每一个点，将符合两个参数的点设置为核心对象

2.直接密度可达：若某点p在点q的r邻域内，且q是核心点则p-q直接密度可达。

密度可达：若有一个点的序列q0、q1、.qk，对任意qi-qi-1是直接密度可达的，则称从q0到qk密度可达，这实际上是直接密度可达的“传播”。

直接密度可达其实很好理解，就是如果非核心对象与其所属核心对象之间的关系，通俗来讲就是一个点在另一个点的领域内，那么该点与该范围的核心对象之间就是直接密度可达。

密度可达有点类似于我们以前所学过的传递性，一个点可以同时为多个特定范围核心对象的直接密度可达点，而这些核心对象之间就是密度可达。

3.密度相连：若从某核心点P出发，点q和点k都是密度可达的，则称点q和点k是密度相连的。

4.边界点：我们上面说过这种密度可达的传递行，当我们遍历到某个点，将其作为核心对象时发现已经不符合特定领域内的最小的目标阈值了，那么此时我们说这个点就是边界点。

5.噪声点（或者说是离群点）：即没有被任何一个领域所包括的点，这也就是DBSCAN算法可以用于噪声监测的原因。

#DBSCAN算法模型的原理流程介绍：

在上图中，算法首先确定了一个核心对象即为A，那么与其直接密度可达的点就为A'，A''和A'''，再将以上三个点作为核心对象进行密度传递，直至BC两点后发现，BC无法满足最小密度阈值，也就成为了边界点，而N点不属于任何一个特定领域，那么他就是我们所谓的离群点或者噪声点。

#DBCSCAN算法模型的工作流程

首次我们需要输入参数，包括我们的待分类数据集，密度最小阈值以及半径r，其次具体的流程见下图：

个人认为以上的工作流程图已经解释的非常清楚了，结合模型的原理流程应该是比较好理解，如果有什么无法理解可以后台私信博主，我看到后会第一时间回复！

#参数的选择

与K-MEANS算法一样，DBSCAN算法的核心难点在于参数的选择，这里DBSCAN算法与K-MEANS算法最显著的不同点在于前者不需要制定簇的个数，这里簇的个数交给算法本身来完成。

第一点我们来讨论一下半径r的设定。这里需要引入一个新的概念就是K距离，我们将某个对象确定为核心对象后，计算每一个点到该点的距离，然后找到突变点，以突变点上一个点的距离作为我们半径r的设定距离。什么是突变点？假设现在的距离分别为d1=0.1,d2=0.12,d3=0.15,d4=0.3

这里我们发现，从d3到d4距离发生了一个巨大的改变（相较于前三个点），那么我们就将d4设置为突变点，r的选择就是d3的距离。

第二点我们在设置最小密度阈值时，一般先设置的较小，在依据情况慢慢调大，多次进行尝试。

#DBSCAN算法的优劣点

优点：

·不需要指定簇个数（数据将聚类成多少簇取决于算法本身）

·可以发现任意形状的簇（这对于处理较为复杂的聚类图形来说非常强大且高效）

·擅长找到离群点（检测任务）

·两个参数就够了（较少的参数选择可以很大程度上减少工作量）

劣势：

·高维数据有些困难（可以做降维）

·参数难以选择（参数对结果的影响非常大）

·Sklearn中效率很慢（数据削減策略）

本篇博客到这里就结束啦！希望本篇博客可以对您有所帮助，咱们下期再见👋拜拜～

小林要编程

关注

23
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
机器学习--聚类算法（第二篇：DBSCAN算法）

这里需要引入一个新的概念就是K距离，我们将某个对象确定为核心对象后，计算每一个点到该点的距离，然后找到突变点，以突变点上一个点的距离作为我们半径r的设定距离。在上图中，算法首先确定了一个核心对象即为A，那么与其直接密度可达的点就为A'，A''和A'''，再将以上三个点作为核心对象进行密度传递，直至BC两点后发现，BC无法满足最小密度阈值，也就成为了边界点，而N点不属于任何一个特定领域，那么他就是我们所谓的离群点或者噪声点。2.直接密度可达：若某点p在点q的r邻域内，且q是核心点则p-q直接密度可达。
复制链接

扫一扫

小林要编程 CSDN认证博客专家 CSDN认证企业博客

码龄1年

7: 原创

129万+: 周排名

15万+: 总排名

3847: 访问

: 等级

168: 积分

51: 粉丝

98: 获赞

3: 评论

85: 收藏

私信

关注

热门文章

最新评论

机器学习--聚类算法（第二篇：DBSCAN算法）
CSDN-Ada助手: 恭喜作者发布了第7篇博客，内容涉及到DBSCAN算法，深入讲解了聚类算法的应用。希望作者能够继续坚持创作，分享更多有价值的内容。建议下一步可以探讨一些实际案例，结合具体应用场景，让读者更容易理解和应用算法。谦虚地建议，希望能够看到更多精彩的内容，加油！
机器学习算法--线性回归
CSDN-Ada助手: 非常棒的博客！看到你对线性回归算法的深入探讨让我受益匪浅。继续保持创作的热情和努力，相信你会在机器学习领域有更多的收获。在拟合目标值时，除了线性回归算法，还可以尝试使用正则化方法来减小模型的复杂度，比如岭回归和Lasso回归。此外，在特征工程方面，可以考虑进行特征缩放、特征组合等操作，以提高模型的性能和泛化能力。希望这些扩展知识能够对你的学习和实践有所帮助！期待看到更多精彩的分享。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
卷积入门--了解这种优美的计算方法
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
卷积入门--了解这种优美的计算方法
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618176401。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。