机器学习面试必知：DBSCAN

最新推荐文章于 2024-07-19 16:20:14 发布

Neekity

最新推荐文章于 2024-07-19 16:20:14 发布

阅读量1.2k

点赞数 2

分类专栏：机器学习面试文章标签： DBSCAN 聚类

本文链接：https://blog.csdn.net/neekity/article/details/89424584

版权

机器学习同时被 2 个专栏收录

39 篇文章 1 订阅

订阅专栏

面试

39 篇文章 3 订阅

订阅专栏

与传统的Kmeans相比，DBSCAN最大的不同就是不需要输入类别数k，最大的优势是可以发现任意形状的聚类簇。如果数据是稠密的，并且数据集不是凸的，那么DBSCAN就比Kmeans好用很多，如果数据不是稠密的，则不推荐用DBSCAN。

输入：样本集 $D=(x_{1},x_{2},...,x_{m})$ ,邻域数 $(\epsilon,MinNum)$ ,样本距离度量方式

初始化核心对象集合 $\Omega=\varnothing$ ，初始化聚类簇数目k=0，初始化未访问样本集合 $\Gamma=D$ ，簇划分 $C=\varnothing$
对于 $j = 1, 2, . . ., m$ ，按照下面的步骤找出所有核心对象：
. 通过距离度量方式，找到样本 $x_{j}$ 的 $\epsilon$ -邻域子样本集 $N_{\epsilon}(x_{j})$
. 如果子样本集样本个数满足 $|N_{\epsilon}(x_{j})|\geq MinNum$ ，那么将样本 $x_{j}$ 加入核心对象样本集合 $\Omega=\Omega \cup \left\{ x_{j}\right\}$
如果核心对象集合 $\Omega=\varnothing$ 则算法结束，否则转入下一步
在核心对象集合 $\Omega$ 中，随机选择一个核心对象 $o$ ，初始化当前簇核心对象队列 $\Omega _{cur}=\left\{ o \right\}$ ，初始化类别序号k=k+1，初始化当前簇样本集合 $_{k}=\left\{o\right\}$ ，更新未访问样本集合 $\Gamma=\Gamma-\left\{o\right\}$
如果当前簇核心队列 $\Omega _{cur}=\varnothing$ ，则当前聚类簇 $C_{k}$ 生成完毕，更新簇划分 $C=\left\{C_{1},C_{2},...,C_{k}\right\}$ ，更新对象集合 $\Omega=\Omega-C_{k}$ ，转入步骤3
在当前簇核心队列取出一个核心对象 $o^{'}$ ，通过邻域距离阈值 $\epsilon$ 找出所有的邻域子样本集 $N_{\epsilon}(o')$ ，令 $\Delta =N_{\epsilon}(o')\cap \Gamma$ 那么 $C_{k}=C_{k}\cup \Delta,\Gamma=\Gamma-\Delta,\Omega _{cur}=\Omega _{cur}\cup (\Delta \cap \Omega)-o'$ ，转到步骤5

输出：簇划分 $C=\left\{C_{1},C_{2},...,C_{k}\right\}$