密度聚类 dbscan

 

层次聚类方法

n凝聚的层次聚类自底向上,首先将每个对象作为一个簇,然后      合并这些原子簇为越来越大的簇,直到某个终结条件被满足。

 

n分裂的层次聚类自顶向下,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。

 

n层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。

优缺点:

n层次聚类方法是不可逆的,也就是说,当通过凝聚式的方法将两组合并后,无法通过分裂式的办法再将其分离到之前的状态,反之亦然。

 

n另外,层次聚类过程中调查者必须决定聚类在什么时候停止,以得到某个数量的分类。

 

在不必要的情况下应该小心使用层次聚类方法

 

 

基于密度的聚类方法

n划分和层次方法旨在发现球状簇。他们很难发现任意形状的簇

n改进思想:将看作数据空间中由低密度区域分隔开的高密度对象区域

 

n过滤噪声孤立点数据,发现任意形状的簇。

¨DBSCAN:基于高密度连通区域聚类

¨OPTICS:通过点排序识别聚类结构

¨DENCLUE:基于密度分布函数的聚类

特点:

抗噪声

能处理任意形状聚类

  

  

n时间复杂度

  1. ¨DBSCAN算法要对每个数据对象进行邻域检查时间性能较低。
  2. ¨DBSCAN的基本时间复杂度是 O(n*找出ε-邻域中的点所需要的时间)。最坏情况下时间复杂度是O(n2)
  3. ¨在低维空间数据中,有一些数据结构如K-D树,使得可以有效的检索特定点给定距离内的所有点,时间复杂度可以降低到O(nlogn)

n空间复杂度

  1.        在聚类过程中,DBSCAN一旦找到一个核心对象,即以该核心对象为中心向外扩展.此过程中核心对象将不断增多,未处理的对象被保留在内存中.若数据库中存在庞大的聚类,将需要很大的存来存储核心对象信息,其需求难以预料.
  2.      当数据量增大时,要求较大的内存支持 I/0 消耗也很大;
  3.   低维或高维数据中,其空间都是O(n)


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值