A density-based algorithm for discovering clusters in large spatial databases with noise
基础定义
邻域:对于任意样本i和给定距离e,样本i的e邻域是指所有与样本i距离不大于e的样本集合;
核心对象:若样本i的e邻域中至少包含MinPts个样本,则i是一个核心对象;
密度直达:若样本j在样本i的e邻域中,且i是核心对象,则称样本j由样本i密度直达;
密度可达:对于样本i和样本j,如果存在样本序列p1,p2,…,pn,其中p1=i,pn=j,并且pm由pm-1密度直达,则称样本i与样本j密度可达;
密度相连:对于样本i和样本j,若存在样本k使得i与j均由k密度可达,则称i与j密度相连。
DBSCAN 将簇定义为:由密度可达关系导出的最大的密度相连样本集合。
缺点:
1、受到欧式距离的通病维数灾难的影响
2、对于在密度上有较大差异的数据,
3、最小样本个数 MinPts 的选取又非常困难。
MinPts=3 的时候,虚线圆圈为 e 邻域,x1 是核心对象,x2 由 x1 密度直达,x3 由 x1 密度可达,x3 与 x4 密度相连。