聚类算法之基于密度的聚类算法DBSCAN算法

Jerry_Chang31

于 2020-01-03 20:17:47 发布

阅读量799

点赞数 1

分类专栏：机器学习算法文章标签：聚类算法 python 聚类算法

本文链接：https://blog.csdn.net/Jerry_Chang31/article/details/103825544

版权

DBSCAN是一种基于密度的聚类算法，它定义簇为密度相连的点的最大集合，不受数据分布形状限制。算法涉及ε和MinPts参数，ε表示邻域距离阈值，MinPts表示邻域中样本数量阈值。DBSCAN过程包括初始化核心对象集合，遍历样本找到核心对象，形成聚类簇。算法优点在于能处理任意形状的聚类和异常点，但对参数调优要求较高，且在数据密度不均匀时可能效果不佳。

摘要由CSDN通过智能技术生成

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

DBSCAN算法最重要的两个参数是 $\varepsilon$ 和 $M i n P t s$ ，其中 $\varepsilon$ 描述了某一样本的邻域距离阈值， $M i n P t s$ 描述了某一样本的距离为 $\varepsilon$ 的邻域中样本个数的阈值。

DBSCAN算法中的概念

$\varepsilon$ ： 包含样本集 $D$ 中与某个样本 $x$ 的距离不大于 $\varepsilon$ 的子样本集。
核心对象： 对于任意一个样本 $x$ ，若其 $\varepsilon$ 邻域中至少包含 $M i n P t s$ 个样本，则该样本 $x$ 是核心对象。
密度直达： 若 $x_i$ 位于 $x_j$ 的 $\varepsilon$ 邻域中，且 $x_j$ 是核心对象，则称 $x_i$ 由 $x_j$ 密度直达，反之不一定成立。
密度可达： 对于 $x_i$ 和 $x_j$ ，若存在样本序列 $\begin{Bmatrix}P_1,P_2,...,P_t\end{Bmatrix}$ ，满足 $P_1=x_i,P_t=x_j$