文章目录
算法简介
DBSCAN算法基于一组“邻域” (neighborhood) 参数( , inPts)来刻画样本分布的紧密程度。给定数据集 = { 1, 2, … , }, 定义下面几个概念:
(1)邻域:对Xj∈D,其邻域包含样本集D中与Xj的距离不大于的样本,即Ne(Xj)={Xj∈D|dist(Xi,Xj)≤};
(2)核心对象(core object):若Xj的邻域至少包括MinPts个样本,即|Ne(Xj)|≥MinPts,则Xj是一个核心对象;
DBSCAN 算法先任选数据集中的一个核心对象为种子 (seed), 将它的 ε-邻域中的所有样本加入一个簇,新加入的样本如果是核心对象,再将这个核心对象的 ε-邻域中的所有样本加入本簇。通过这种递归搜索,将所有密度相连的样本归入一个簇。如果此时数据集中还有未处理的核心对象,再重复上述的过程开始一个新簇的搜索。