DBSCAN聚类算法-CSDN博客

本文链接：https://blog.csdn.net/Rhett_Butler0922/article/details/147495650

一、DBSCAN简介

DBSCAN是一种基于密度的聚类算法，由Martin Ester等人在1996年提出（论文标题：《A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise》）。与K-Means等基于质心的聚类算法不同，DBSCAN通过识别数据点的“密度连接”区域来形成簇，能够发现任意形状的簇，并且对噪声点（异常点）具有鲁棒性。

核心思想

DBSCAN基于以下假设：

数据集中存在高密度区域（簇），这些区域由低密度区域分隔。
簇内的点在空间上是“密度可达”的，而噪声点则位于低密度区域。

DBSCAN不需要预先指定簇的数量（不像K-Means需要指定K），这使得它在处理未知数据集时非常灵活。

二、DBSCAN的核心概念

要理解DBSCAN的运作机制，首先需要掌握以下几个关键概念：

核心点（Core Point）：
- 如果一个数据点在其半径 $\epsilon$ （Epsilon）范围内至少有 $M in Pt s$ （最小点数，包括自身）个点，则该点被称为核心点。
- 数学定义：对于点 $p$ ，如果 $|N_\epsilon(p)| \geq MinPts$ ，其中 $N_\epsilon(p) = \{ q \in D | \text{dist}(p, q) \leq \epsilon \}$ 是以 $p$ 为中心、半径为 $\epsilon$ 的邻域， $D$ 是数据集。
边界点（Border Point）：
- 如果一个点在其半径 $\epsilon$ 范围内点的数量少于 $M in Pt s$ ，但它位于某个核心点的 $\epsilon$ 邻域内，则该点被称为边界点。
- 边界点不满足核心点的条件，但属于某个簇的边缘。
噪声点（Noise Point）：
- 既不是核心点也不是边界点的点，称为噪声点或异常点。这些点通常位于低密度区域，不属于任何簇。
直接密度可达（Directly Density-Reachable）：
- 如果点 $q$ 在核心点 $p$ 的 $\epsilon$ 邻域内（即 $\text{dist}(p, q) \leq \epsilon$ ），且 $p$ 是核心点，则 $q$ 对 $p$ 是直接密度可达的。
密度可达（Density-Reachable）：
- 如果存在一个点序列 $p_1, p_2, \dots, p_n$ ，其中 $p_1 = p$ ， $p_n = q$ ，且每个 $p_{i+1}$ 对 $p_i$ 是直接密度可达的，则 $q$ 对 $p$ 是密度可达的。
密度连接（Density-Connected）：
- 如果点 $p$ 和 $q$ 都对某个核心点