基本概念
基于密度的带噪声的空间聚类应用算法,它是将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并在噪声的空间数据集中发现任意形状的聚类。
操作流程
- 在样本点钟随机选取一个点,判断这个点在周围半径为E的范围内样本点的个数
- 如果样本点的个数超过设定的阈值个数说明这个点位核心对象
- 对核心对象周围所有的点重复上述1,2操作
- 如果在同一个半径圆内我们称为直接密度可达:A与C
- 通过圆相交间接连接称为密度可达:A与B
- 与所有点都不连接的点称为离群点:N
实现过程
参数&属性
class sklearn.cluster.DBSCAN(
eps=0.5,
min_samples=5,
metric=’euclidean’,
metric_params=None,
algorithm=’auto’,
leaf_size=30,
p=None,
n_jobs=None)
参数
- eps: DBSCAN算法参数,即我们的ϵϵ-邻域的距离阈值,和样本距离超过ϵϵ的样本点不在ϵϵ-邻域内。默认值是0.5.一般需要通过在多组值