【聚类】篇四之理解密度聚类算法DBSCAN

DBSCAN是一种基于密度的聚类算法,适用于发现任意形状的簇。它通过核心对象、密度直达和密度可达关系确定簇,对异常点不敏感,但参数调整较为复杂。在密度不均匀的数据集上可能表现不佳。
摘要由CSDN通过智能技术生成

一、密度聚类概述

密度聚类假设聚类结构能通过样本的紧密程度确定,同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。从样本密度出发考虑样本间的可连接性,然后基于可连接样本不断扩展聚类的簇实现聚类的目的。基于原型(划分)和层次的聚类方法一般只能发现球状的簇,很难去发现任意形状的簇,为了发现任意形状的簇,我们可以把簇看成是数据空间中被稀疏区域划分开的稠密区域。那么如何在基于密度的聚类中发现稠密区域呢?原则是一个对象的密度可以用靠近它的对象的数量来表示。

二、DBSCAN聚类

(一)、基础概念

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。
DBSCAN的核心在于确定某个对象的邻域,参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度,其中,ϵ描述了某一样本xj的邻域距离阈值,即样本集D中与xj距离不大于ϵ的样本,即:
在这里插入图片描述
MinPts描述了某一样本的距离为ϵ的邻域中样本个数的阈值。
首先,先明确两个概念:
1) ϵ-邻

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值