dbscan算法_DBSCAN算法

最新推荐文章于 2023-04-03 10:11:41 发布

weixin_39638309

最新推荐文章于 2023-04-03 10:11:41 发布

阅读量368

点赞数

文章标签： dbscan算法

DBSCAN是一种基于密度的空间聚类算法，能发现任意形状的簇并有效处理噪声点。核心对象是算法关键，通过ε邻域和MinPts参数确定。算法流程包括找出核心对象并构建簇，对不满足条件的点视为边缘点。DBSCAN对簇数量无需预设定，但对参数选择敏感。其优点是无需预知簇数量，能识别噪声和任意形状簇，但对高维数据和密度不均匀的数据集表现不佳。

摘要由CSDN通过智能技术生成

一、简介

DBSCAN（Density-Based Spatial Clustering of Applications with Noise），具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

二、相关概念

Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；

核心对象：如果给定对象Ε邻域内的样本点数大于等于MinPts，则称该对象为核心对象；

直接密度可达：对于样本集合D，如果样本点q在p的Ε邻域内，并且p为核心对象，那么对象q从对象p直接密度可达。

密度可达：对于样本集合D，给定一串样本点p1,p2….pn，p= p1,q= pn,假如对象pi从pi-1直接密度可达，那么对象q从对象p密度可达。

密度相连：存在样本集合D中的一点o，如果对象o到对象p和对象q都是密度可达的，那么p和q密度相联。

可以发现，密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。

Eg: 假设半径Ε=3，MinPts=3，点p的E邻域中有点{m,p,p1,p2,o}, 点m的E邻域中有点{m,q,p,m1,m2},点q的E邻域中有点{q,m},点o的E邻域中有点{o,p,s},点s的E邻域中有点{o,s,s1}.

那么核心对象有p,m,o,s(q不是核心对象，因为它对应的E邻域中点数量等于2，小于MinPts=3)；

点m从点p直接密度可达，因为m在p的E邻域内，并且p为核心对象；

点q从点p密度可达，因为点q从点m直接密度可达，并且点m从点p直接密度可达；

点q到点s密度相连，因为点q从点p密度可达，并且s从点p密度可达。

三、DBSCAN算法描述:

输入: 包含n个对象的数据库，半径e，最少数目MinPts;

输出:所有生成的簇，达到密度要求。

(1)Repeat

(2)从数据库中抽出一个未处理的点；

(3)IF抽出的点是核心点 THEN 找出所有从该点密度可达的对象，形成一个簇；

(4)ELSE 抽出的点是边缘点(非核心对象)，跳出本次循环，寻找下一个点；

(5)UNTIL 所有的点都被处理。

DBSCAN对用户定义的参数很敏感，细微的不同都可能导致差别很大的结果，而参数的选择无规律可循，只能靠经验确定。

四、算法步骤

先说个人总结：先根据半径e，最少数目MinPts选择出核心对象，再根据核心对象划分簇

输入：样本集D=(x1,x2,...,xm)(x1,x2,...,xm)，邻域参数(ϵ,MinPts)(ϵ,MinPts), 样本距离度量方式

输出：簇划分C.　

1）初始化核心对象集合Ω=∅Ω=∅, 初始化聚类簇数k=0，初始化未访问样本集合ΓΓ = D, 簇划分C = ∅∅

2) 对于j=1,2,...m, 按下面的步骤找出所有的核心对象：

a) 通过距离度量方式，找到样本xjxj的ϵϵ-邻域子样本集Nϵ(xj)Nϵ(xj)

b) 如果子样本集样本个数满足|Nϵ(xj)|≥MinPts|Nϵ(xj)|≥MinPts，将样本xjxj加入核心对象样本集合：Ω=Ω∪{xj}Ω=Ω∪{xj}

3）如果核心对象集合Ω=∅Ω=∅，则算法结束，否则转入步骤4.

4）在核心对象集合ΩΩ中，随机选择一个核心对象oo，初始化当前簇核心对象队列Ωcur={o}Ωcur={o}, 初始化类别序号k=k+1，初始化当前簇样本集合Ck={o}Ck={o}, 更新未访问样本集合Γ=Γ−{o}Γ=Γ−{o}

5）如果当前簇核心对象队列Ωcur=∅Ωcur=∅，则当前聚类簇CkCk生成完毕, 更新簇划分C={C1,C2,...,Ck}{C1,C2,...,Ck}, 更新核心对象集合Ω=Ω−CkΩ=Ω−Ck，转入步骤3。否则更新核心对象集合Ω=Ω−CkΩ=Ω−Ck。

6）在当前簇核心对象队列ΩcurΩcur中取出一个核心对象o′o′,通过邻域距离阈值ϵϵ找出所有的ϵϵ-邻域子样本集Nϵ(o′)Nϵ(o′)，令Δ=Nϵ(o′)∩ΓΔ=Nϵ(o′)∩Γ, 更新当前簇样本集合Ck=Ck∪ΔCk=Ck∪Δ, 更新未访问样本集合Γ=Γ−ΔΓ=Γ−Δ, 更新Ωcur=Ωcur∪(Δ∩Ω)−o′Ωcur=Ωcur∪(Δ∩Ω)−o′，转入步骤5.

输出结果为：簇划分C={C1,C2,...,Ck}

五、优缺点

优点：

与K-means方法相比，DBSCAN不需要事先知道要形成的簇类的数量。
与K-means方法相比，DBSCAN可以发现任意形状的簇类。
同时，DBSCAN能够识别出噪声点。
DBSCAN对于数据库中样本的顺序不敏感，即Pattern的输入顺序对结果的影响不大。但是，对于处于簇类之间边界样本，可能会根据哪个簇类优先被探测到而其归属有所摆动。

缺点：

DBScan不能很好反映高维数据。
DBScan不能很好反映数据集以变化的密度。
如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差。

六、代码实现

1.引入库

import

2.计算欧式距离

# 计算欧式距离

3.密度聚类

def

4.可视化

def

5.主程序

if

6.完整代码

import

7.结果

由于是随机生成数据，可以直观发现效果并不好

weixin_39638309

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫