DBSCAN原理

最新推荐文章于 2025-01-21 09:36:24 发布

泠山

最新推荐文章于 2025-01-21 09:36:24 发布

阅读量321

点赞数

分类专栏： SLAM 文章标签：自动驾驶 SLAM 聚类

原文链接：https://zhuanlan.zhihu.com/p/336501183

版权

SLAM 专栏收录该内容

28 篇文章

订阅专栏

DBSCAN是一种基于密度的聚类算法，通过邻域半径和最少点数目定义密集区域。它能发现任意形状的聚类簇，包括核心点、边界点和噪声点。本文详细介绍了DBSCAN的基本概念和算法步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DBSCAN原理

1. 基本概念
2. 算法步骤

Reference：

20分钟学会DBSCAN

DBSCAN 是一种非常著名的基于密度的聚类算法。其英文全称是 Density-Based Spatial Clustering of Applications with Noise，意即：一种基于密度，对噪声鲁棒的空间聚类算法。直观效果上看，DBSCAN 算法可以找到样本点的全部密集区域，并把这些密集区域当做一个一个的聚类簇。

DBSCAN 算法具有以下特点：

基于密度，对远离密度核心的噪声点鲁棒
无需知道聚类簇的数量
可以发现任意形状的聚类簇

DBSCAN 通常适合于对较低维度数据进行聚类分析。

1. 基本概念

DBSCAN 的基本概念可以用 1，2，3，4来总结。

1个核心思想：基于密度。直观效果上看，DBSCAN 算法可以找到样本点的全部密集区域，并把这些密集区域当做一个一个的聚类簇。
2个算法参数：邻域半径R和最少点数目MinPoints。这两个算法参数实际可以刻画什么叫密集：当邻域半径R内的点的个数大于最少点数目MinPoints时，就是密集。
3种点的类别：核心点，边界点和噪声点。
- 邻域半径R内样本点的数量大于等于minpoints的点叫做核心点
- 不属于核心点但在某个核心点的邻域内的点叫做边界点
- 既不是核心点也不是边界点的是噪声点
4种点的关系：密度直达，密度可达，密度相连，非密度相连。
- 如果P为核心点，Q在P的R邻域内，那么称P到Q密度直达。任何核心点到其自身密度直达，密度直达不具有对称性，如果P到Q密度可达，那么Q到P不一定密度可达
- 如果存在核心点P2，P3，……，Pn，且P1到P2密度直达，P2到P3密度直达，……，P(n-1)到Pn密度直达，Pn到Q密度直达，则P1到Q 密度可达。密度可达也不具有对称性
- 如果存在核心点S，使得S到P和Q都密度可达，则P和Q密度相连。密度相连具有对称性，如果P和Q密度相连，那么Q和P也一定密度相连。密度相连的两个点属于同一个聚类簇
- 如果两个点不属于密度相连关系，则两个点非密度相连。非密度相连的两个点属于不同的聚类簇，或者其中存在噪声点

2. 算法步骤

DBSCAN 的算法步骤分成两步：

寻找核心点形成临时聚类簇
扫描全部样本点，如果某个样本点R半径范围内点数目>=MinPoints，则将其纳入核心点列表，并将其密度直达的点形成对应的临时聚类簇。
合并临时聚类簇得到聚类簇
对于每一个临时聚类簇，检查其中的点是否为其他临时聚类簇的核心点，如果是，将该点对应的临时聚类簇和当前临时聚类簇合并，得到新的临时聚类簇。

重复此操作，直到当前临时聚类簇中的每一个点要么不在核心点列表，要么其密度直达的点都已经在该临时聚类簇，该临时聚类簇升级成为聚类簇。

继续对剩余的临时聚类簇进行相同的合并操作，直到全部临时聚类簇被处理。