泛统计理论初探——DBSCAN方法简介

最新推荐文章于 2024-06-03 17:20:08 发布

喷火龙与水箭龟

最新推荐文章于 2024-06-03 17:20:08 发布

阅读量523

点赞数 1

分类专栏：数据挖掘文章标签：算法线性代数数据挖掘机器学习深度学习

本文链接：https://blog.csdn.net/qq_26727101/article/details/105317189

版权

本文介绍了基于密度的聚类算法DBSCAN，包括其核心思想、关键参数E-邻域和minPoints，以及核心对象、密度直达、密度可达、密度相连、边界点和噪音点等概念。DBSCAN的优势在于无需预设类别数量，能处理不同形状的聚类，且对异常点不敏感，但其参数调整较为复杂，适合于数据稠密或非凸形分布的场景。

摘要由CSDN通过智能技术生成

数据挖掘-聚类算法之DBSCAN

DBSCAN算法简介
在之前的文章里，我们探讨了最常见的一种聚类算法，即Kmeans算法，在本文中，我们将简要介绍DBSCAN算法，同时将比较DBSCAN方法相对于Kmeans的优缺点。
DBSCAN全称是Density-Based Spatial Clustering of Applications with Noise
从英文的释义就可以明确，该算法是基于密度进行聚类的算法。该算法的核心思想是基于密度进行分类，即某个样本的周围一定有相同类别的样本。基于这个思想，我们自然会相到首先要确定邻域距离，即在多少半径范围之内的点算作一类，即该算法所谓的E-邻域。同时还需要明确在E-邻域范围之内包含多少个点才能算作密集（同一个类），即该算法所谓的minPoints参数。实际在使用该算法的时候只需要设置E-邻域和minPoints参数即可以使用，但是除了这个E-邻域和minPoints参数，下面还有几个重要的概念需要理解：
1、核心对象，核心对象指的是，如果在E-邻域之内对应的邻居点的数量大于minPoints参数，那么这个点就称之为核心对象，也称为核心点。
2、密度直达，密度直达指的是，在核心对象A点的邻域范围之内，比如有个点是B，那么称之为B点由A点密度直达。
3、密度可达，密度可达这个概念指的是一种可达的路径传递性，即给一系列的样本点A、B、C、D、E、F，如果A点到B点是密度直达的，B点到C点是密度直达的，C-D、D-E、E-F均是密度直达的，那么点F就是从点A密度可达，也就是说密度可达的概念是将密度直达的概念进行延伸，造成了一种路径传递特性。