基于密度的聚类算法

DBSCAN的核心思想是从某个核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连。

\epsilon邻域:对任意一个点p,其\epsilon邻域定义为:N_{\epsilon }(p)=\{q\in D|dist(p,q)\leq \epsilon \}
密度:设x\in X,则\rho (x)=|N_{\epsilon }(x)|x的密度。
核心点:设x\in X,若\rho (x)\geq MinPts,则称xX中的中心点,中心点构成的集合为X_{c}
边界点:设x \epsilon X \backslash X_{c},且x落在某个核心点的\epsilon邻域内。一个边界点可能落在多个核心点的\epsilon邻域内。
直接密度可达:设x,y\in X,若满足y \in N_{\epsilon }(q)|N_{\epsilon }(q)|\geq MinPts,则称yx直接密度可达。
密度可达:假设存在一串点p_{1},p_{2},...,p{n},p_{1}=q,p_{n}=p,使得p_{i+1}p_{i}是直接密度可达的,那么就认为pq密度可达。
密度相连:假设存在点o,p,q,其中p,q均从o密度可达,那么pq密度相连。密度相连具有对称性。
类簇:设非空集合C\subset X,若满足:\forall p,q
(1)p\in C,且qp密度可达,那么q\in C
(2)pq密度相连。
则称C构成一个类簇。


缺点:DBSCAN使用了统一的eps邻域值和Minpts值,在类中的数据分布密度不均匀时,eps较小时,密度小的cluster会被划分成多个性质相似的cluster;eps较大时,会使得距离较近且密度较大的cluster被合并成一个cluster。在高维数据时,因为维数灾难问题,eps的选取比较困难。
优点:能发现任意形状的聚簇,聚类结果几乎不依赖于结点遍历顺序,能够有效的发现噪声点。


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值