一、介绍
DBSCAN是一种著名的基于密度的聚类算法,是Martin Ester、Hans-Peter Kriegel等人在1996年提出来的(参考文献:A density-based algorithm for discovering clusters in large spatial database)。该算法能够有效处理噪声点和发现任意形状的空间聚类,与k-means聚类算法相比,不需要输入要划分的聚类个数。
二、相关概念
要理解DBSCAN算法,首先要清楚以下相关概念:
定义1:(e-领域) :点p的e-邻域记作:
即:以p为圆心,e为半径的范围里,所有的点q的集合。
定义2:(直接密度可达):如果:
(1)点p在点q的e-领域内
(2)在点q的e-领域内,至少包含MinPts个点
那么点p由点q直接密度可达,满足第2个条件的点q,被称为核心点(core point)。
定义3:(边界点):边界点(border point)不是核心点,因为它不满足其e-邻域内,至少包含MinPts个点,但边界点在其他核心点的e-邻域内。
定义4:(密度可达