DBSCAN密度空间的聚类算法

最新推荐文章于 2024-05-17 16:18:57 发布

True | Fasle

最新推荐文章于 2024-05-17 16:18:57 发布

阅读量920

点赞数

分类专栏： AIops 文章标签：聚类算法无监督学习机器学习

本文链接：https://blog.csdn.net/caiyu666/article/details/109656602

版权

AIops 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

聚类算法（DBSCAN）：（一般比k-means等效果好）

通俗理解：随机找到一个核心点的时候，就建立一个簇，里面的所有点，是它的下线，然后一直发展下线，一般边界点就不会继续发展了，里面的核心点继续发展下线，并且需要把访问的点标记为已访问，知道该核心点结束，继续访问剩下的点找到一个新的核心，继续发展下线，每次没有下线发展的时候，开始新的一轮发展下线的时候，改点不是核心点，就是离群点了。

首先需定义的两个超参数：eps：邻域距离阈值，min_samples样本点成为核心点的样本数阈值

基本定义：

核心点：看其邻域内，所包含点的个数，是否超过min_samples,超过就是核心点；
边界点：在核心点内的点，继续判断，是否为核心点，非核心点，如果不是就是边界点；
噪声点：没有被扫描到的点离群点，从任何一个核心点出发都是密度不可达的；
密度直接可达：点q在p的邻域内，且p为核心点，则q是p的密度直达；
密度可达：有一个序列q0,q1，,q2…qk，对于任意qi到qi-1是直接密度可达的，则称q0到q1…qk都是密度可达的，实际上是密度直接可达的传播；
密度相连：从某核心点p出发，点q和点k都是密度可达的，则称为q和k是密度相连的

算法基本流程：

这里引用下唐宇迪大佬的流程图：

个人感觉，我觉得这个流程第一步有点问题，如果不是核心点直接判定为离群点有点问题，如果选到了边界点呢，你也判定为离群点了，感觉如果不是核心点直接跳过就行，如果剩下的所有点都没有核心点了，那么剩下的所有未标记的点才能被判定为离群点。

感觉这篇中写的也比较简洁而且准确，不是直接判定为离群点，而是判定为外围点，后面再改判为离群点：聚类算法之DBSCAN算法之一：经典DBSCAN

任意选择一个点（既没有指定到一个类也没有特定为外围点），计算它的NBHD(p,epsilon)判断是否为核点。如果是，在该点周围建立一个类，否则，设定为外围点。
遍历其他点，直到建立一个类。把directly-reachable的点加入到类中，接着把density-reachable的点也加进来。如果标记为外围的点被加进来，修改状态为边缘点。
重复步骤1和2，直到所有的点满足在类中（核点或边缘点）或者为外围点

总结下，密度可达的动态扩展就是发展下线的过程，其实就是一个簇所有数据的关系就是密度相连。

展下线的过程，其实就是一个簇所有数据的关系就是密度相连。

True | Fasle

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DBSCAN密度空间的聚类算法

聚类算法（DBSCAN）：（一般比k-means等效果好）通俗理解：找到一个核心点的时候，就建立一个簇，里面的所有点，是它的下线，然后一直发展下线，一般边界点就不会继续发展了，里面的核心点继续发展下线，并且需要把访问的点标记为已访问，知道该核心点结束，继续访问剩下的点找到一个新的核心，继续发展下线，每次没有下线发展的时候，开始新的一轮发展下线的时候，改点不是核心点，就是离群点了。首先需定义的两个超参数：eps：邻域距离阈值，min_samples样本点成为核心点的样本数阈值基本定义：核心点：看
复制链接

扫一扫