密度聚类
基于密度的聚类,假设聚类结构能够通过样本分布的紧密程度确定。通常情况下,密度聚类算法从样本密度的角度来考察样本之间的可连接性。
基于密度聚类的特性
- 发现任意形状的聚类
- 处理噪声
- 一遍扫描(只检查局部区域来判断密度)
- 需要密度参数作为终止条件
一些研究
- DBSCAN (KDD’96)
- OPTICS (sigmod’99)
- DENCLUE (kdd’98)
- CLIQUE (SIGMOD’98)也是基于网格的
DBSCAN
全称Density-Based Spatial Clustering Appliacations with Noise
DBSCAN,它基于一组”领域”参数 (ϵ,MinPts) 来刻画样本分布的紧密程度。
几个重要概念
- e-邻域
对 xj∈D ,其 ϵ -邻域包含样本集D种与 xj 的距离不大于 ϵ 的样本,即 Nϵ(xj)=