DBSCAN算法详解

Density-based Clustering

第二种类型的聚类算法叫做“密度聚类”,即基于密度的聚类。这一类模型是根据样本之间的紧密程度进行聚类,通过样本的密度来考虑样本之间的可连接性。其中,DBSCAN是最为著名的密度聚类模型。DBSCAN基于一组“邻域”参数 ( ϵ ,   M i n P t s ) (\epsilon, \ MinPts) (ϵ, MinPts)来刻画样本之间的紧密程度,给定数据集 D = { x 1 , x 2 , … , x n } D=\{x_1,x_2,\dots,x_n\} D={x1,x2,,xn},有以下几个重要概念:

  • ϵ \epsilon ϵ-邻域:对于 x j ∈ D x_j\in D xjD,其 ϵ \epsilon ϵ-邻域是数据集 D D D中所有与 x j x_j xj距离不大于 ϵ \epsilon ϵ的样本,即 N ϵ ( x j ) = { x i ∈ D   ∣   d i s t ( x i , x j ) ≤ ϵ } N_{\epsilon}(x_j)=\{x_i \in D\ |\ dist(x_i, x_j)\le \epsilon \} Nϵ(xj)={xiD  dist(xi,xj)ϵ}
  • 核心对象(core object):若 x j x_j xj ϵ \epsilon ϵ邻域中至少包含 M i n P t s MinPts MinPts个样本,即 ∣ N ϵ ( x j ) ∣ ≥ M i n P t s |N_{\epsilon}(x_j)|\ge MinPts Nϵ(xj)MinPts,那么 x j x_j xj就被叫做一个核心对象
  • 密度直达(directly density-reachable):若 x j x_j xj x i x_i xi的邻域里,且 x i x_i xi是核心对象,那么称 x i x_i xi x j x_j xj是密度直达的
  • 密度可达(density reachable):对 x i x_i xi x j x_j xj,若存在样本序列 p 1 , p 2 , … , p n p_1, p_2, \dots, p_n p1,p2,,pn,其中 p 1 = x i ,   p n = x j p_1=x_i, \ p_n=x_j p1=xi, pn=xj,且 p i + 1 p_{i+1} pi+1可由 p i p_i pi密度直达,那么称 x i x_i xi x j x_j xj密度可达
  • 密度相连(density connected):对 x i x_i xi x j x_j xj,若存在 x k x_k xk使得 x i x_i xi x j x_j xj均和 x k x_k xk密度可达,那么称 x i x_i xi x j x_j xj密度相连

在这里插入图片描述

基于以上概念,DBSCAN对“簇”的定义为:由密度可达关系导出的最大的密度相连样本集合。给定参数 ( ϵ , M i n P t s ) (\epsilon,MinPts) (ϵ,MinPts),簇 C ⊆ D C\subseteq D CD,那么 C C C满足以下性质:

  • 连接性: x i ,   x j   ∈   C       ⇒      x i   x j x_i, \ x_j\ \in\ C\ \ \ \ \ \Rightarrow\ \ \ \ x_i\ x_j xi, xj  C         xi xj密度相连
  • 最大性: x i ∈ C x_i \in C xiC x i x_i xi x j x_j xj密度可达       ⇒      x j ∈ C \ \ \ \ \ \Rightarrow\ \ \ \ x_j\in C          xjC

在实际写代码过程中,假如 x x x是一个核心对象,那么只需要找到所有和 x x x密度可达的样本 x ^ \hat{x} x^,那么这些样本所组成的是一个簇。算法流程如下:

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值