泛统计理论初探——DBSCAN方法简介

本文介绍了基于密度的聚类算法DBSCAN,包括其核心思想、关键参数E-邻域和minPoints,以及核心对象、密度直达、密度可达、密度相连、边界点和噪音点等概念。DBSCAN的优势在于无需预设类别数量,能处理不同形状的聚类,且对异常点不敏感,但其参数调整较为复杂,适合于数据稠密或非凸形分布的场景。
摘要由CSDN通过智能技术生成

数据挖掘-聚类算法之DBSCAN

DBSCAN算法简介
在之前的文章里,我们探讨了最常见的一种聚类算法,即Kmeans算法,在本文中,我们将简要介绍DBSCAN算法,同时将比较DBSCAN方法相对于Kmeans的优缺点。
DBSCAN全称是Density-Based Spatial Clustering of Applications with Noise
从英文的释义就可以明确,该算法是基于密度进行聚类的算法。该算法的核心思想是基于密度进行分类,即某个样本的周围一定有相同类别的样本。基于这个思想,我们自然会相到首先要确定邻域距离,即在多少半径范围之内的点算作一类,即该算法所谓的E-邻域。同时还需要明确在E-邻域范围之内包含多少个点才能算作密集(同一个类),即该算法所谓的minPoints参数。实际在使用该算法的时候只需要设置E-邻域和minPoints参数即可以使用,但是除了这个E-邻域和minPoints参数,下面还有几个重要的概念需要理解:
1、核心对象,核心对象指的是,如果在E-邻域之内对应的邻居点的数量大于minPoints参数,那么这个点就称之为核心对象,也称为核心点。
2、密度直达,密度直达指的是,在核心对象A点的邻域范围之内,比如有个点是B,那么称之为B点由A点密度直达。
3、密度可达,密度可达这个概念指的是一种可达的路径传递性,即给一系列的样本点A、B、C、D、E、F,如果A点到B点是密度直达的,B点到C点是密度直达的,C-D、D-E、E-F均是密度直达的,那么点F就是从点A密度可达,也就是说密度可达的概念是将密度直达的概念进行延伸,造成了一种路径传递特性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值