第八章(3) 聚类:DBSCAN和簇评估

  1. 基于密度的聚类寻找被低密度区域分离的高密度区域
  2. 传统的密度:基于中心的方法:数据集中特定点的密度通过对该点半径之内的点计数(包括本身)来估计,关键是确定半径;根据基于中心的密度进行点分类:
    1. 稠密区域内的点(核心点):点的邻域由距离函数和指定半径决定;定义是该点的给定邻域内的点的个数>给定的阈值,则为核心点
    2. 稠密区域边缘上的点(边界点):落在某个核心点的邻域内
    3. 稀疏区域中的点(噪声或背景点):既非核心点也非边界点的任何点
  3. DBSCAN算法:任意两个距离在指定半径内的核心点放在同一个簇中,任意和核心点足够靠近的边界点也放到与核心点相同的簇中(如果一个边界点靠近不同簇的核心,那需要解决平局问题)
    1. 选择DBSCAN的参数:
      1. 指定半径:点的k个最近邻的距离;对于某个k,计算所有点的第k-距离,递增排序,发现有一部分k-距离急剧上升,这就是合适的半径
      2. 合适的半径下的邻域内的点数即为个数阈值
    2. 变密度的簇:密度的变化会让参数的阈值选择出现问题,低的话,有些高密度的簇内的点变成单点簇
  4. DBSCAN算法的优缺点:相对抗噪声,处理任意形状和大小的簇;问题是密度变化大,对于高维数据密度定义更困难,而且近邻计算需要计算所有点对邻近度时,算法开销大
  1. 簇评估:聚类分析是非监督的,所以簇评估不是聚类分析普遍使用的,或称簇确认
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值