DBSCA聚类算法原理
DBSCA(Density-Based Spatial Clustering of Application with Noise)属于密度聚类(基于密度的聚类,density-based clustering)。密度聚类算法通常假设聚类结构能够通过样本分布的紧密程度确定。通常情况下,密度聚类算法从样本面密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。
DBSCA基于一组邻域(neighborhood)的参数()来刻画样本分布的紧密程度。给定数据集, 定义下面几个概念:
- 邻域:对,其邻域为样本集中与的距离不大于的样本集合;
- 核心对象(core object):若的邻域至少包含个样本,则为一个核心对象;
- 密度直达(directly density-reachable):若