密度聚类DBSCAN

最新推荐文章于 2024-06-03 17:20:08 发布

Jender_Sean

最新推荐文章于 2024-06-03 17:20:08 发布

阅读量279

点赞数

分类专栏：聚类文章标签：聚类 python

本文链接：https://blog.csdn.net/ZHT2016iot/article/details/119086649

版权

DBSCAN是一种基于密度的聚类算法，关注样本间的紧密程度。文章介绍了DBSCAN的相关概念，如邻域、核心对象、密度直达、密度可达和密度相连，并详细阐述了算法流程。接着，通过Python代码展示了DBSCAN的实现过程，证明其在聚类效果上能有效识别和排除离群点。

摘要由CSDN通过智能技术生成

1.相关概念

DBSCAN是基于密度的聚类算法，该类算法假设聚类结构能够通过样本分布的紧密程度确定（样本密度均匀分布）,它通常考虑的是样本之间的可连接性，并以最大连接性确定聚类簇。要搞懂该算法，首先要理清楚几个概念：

邻域：对于样本 $x_i \in D$ ,其邻域包含样本集D中距离 $x_i$ 不超过 $\epsilon$ 的样本，即 $N_\epsilon(x_i)=\{x_j \in D | dist(x_i,x_j) \leq \epsilon \}$ 。若采用欧式距离，那么 $N_\epsilon(x_i)$ 就是以 $x_i$ 为圆心，以 $\epsilon$ 为半径的圆域。
核心对象: $x_i$ 的邻域中至少包含 $m i n P t s$ 个样本，即 $|N_\epsilon(x_i)| \geq minPts$ ，则 $x_i$ 是一个核心对象。这说明核心对象紧邻着多个样本，所以核心对象是算法关注的对象。
密度直达: $x_j$ 在 $x_i$ 的邻域中且 $x_i$ 是核心对象，则称 $x_j$ 由 $x_i$ 密度直达，记作 $x_i \rightarrow x_j$ 。不难理解，因为核心对象 $x_i$ 与邻域中的样本紧密的挨着，我们可以认为 $x_i$

关注