基于密度的聚类算法

最新推荐文章于 2023-06-03 09:40:29 发布

gentelyang

最新推荐文章于 2023-06-03 09:40:29 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/gentelyang/article/details/79388163

版权

机器学习专栏收录该内容

30 篇文章 2 订阅

订阅专栏

DBSCAN的核心思想是从某个核心点出发，不断向密度可达的区域扩张，从而得到一个包含核心点和边界点的最大化区域，区域中任意两点密度相连。

$\epsilon$ 邻域：对任意一个点p，其 $\epsilon$ 邻域定义为： $N_{\epsilon }(p)=\{q\in D|dist(p,q)\leq \epsilon \}$ 。
密度：设 $x\in X$ ，则 $\rho (x)=|N_{\epsilon }(x)|$ 为的密度。
核心点：设 $x\in X$ ，若 $\rho (x)\geq MinPts$ ，则称为中的中心点，中心点构成的集合为 $X_{c}$ 。
边界点：设 $x \epsilon X \backslash X_{c}$ ，且落在某个核心点的 $\epsilon$ 邻域内。一个边界点可能落在多个核心点的 $\epsilon$ 邻域内。
直接密度可达：设 $x,y\in X$ ，若满足 $y \in N_{\epsilon }(q)$ 且 $|N_{\epsilon }(q)|\geq MinPts$ ，则称从直接密度可达。
密度可达：假设存在一串点 $p_{1},p_{2},...,p{n},p_{1}=q,p_{n}=p$ ，使得 $p_{i+1}$ 从 $p_{i}$ 是直接密度可达的，那么就认为从密度可达。
密度相连：假设存在点，其中均从密度可达，那么和密度相连。密度相连具有对称性。
类簇：设非空集合 $C\subset X$ ，若满足： $\forall p,q$
（1） $p\in C$ ，且从密度可达，那么 $q\in C$ 。
（2）和密度相连。则称构成一个类簇。

缺点：DBSCAN使用了统一的邻域值和值，在类中的数据分布密度不均匀时，较小时，密度小的cluster会被划分成多个性质相似的cluster；较大时，会使得距离较近且密度较大的cluster被合并成一个cluster。在高维数据时，因为维数灾难问题，的选取比较困难。
优点：能发现任意形状的聚簇，聚类结果几乎不依赖于结点遍历顺序，能够有效的发现噪声点。

gentelyang

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于密度的聚类算法

DBSCAN的核心思想是从某个核心点出发，不断向密度可达的区域扩张，从而得到一个包含核心点和边界点的最大化区域，区域中任意两点密度相连。邻域：对任意一个点p，其邻域定义为：。密度：设，则为的密度。核心点：设，若，则称为中的中心点，中心点构成的集合为。边界点：设，且落在某个核心点的邻域内。一个边界点可能落在多个核心点的邻域内。直接密度可达：设，若满足且，则称从直接密度可达。密度可达：假设存在一串点，...
复制链接

扫一扫

专栏目录