一、密度聚类概述
密度聚类假设聚类结构能通过样本的紧密程度确定,同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。从样本密度出发考虑样本间的可连接性,然后基于可连接样本不断扩展聚类的簇实现聚类的目的。基于原型(划分)和层次的聚类方法一般只能发现球状的簇,很难去发现任意形状的簇,为了发现任意形状的簇,我们可以把簇看成是数据空间中被稀疏区域划分开的稠密区域。那么如何在基于密度的聚类中发现稠密区域呢?原则是一个对象的密度可以用靠近它的对象的数量来表示。
二、DBSCAN聚类
(一)、基础概念
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。
DBSCAN的核心在于确定某个对象的邻域,参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度,其中,ϵ描述了某一样本xj的邻域距离阈值,即样本集D中与xj距离不大于ϵ的样本,即:
MinPts描述了某一样本的距离为ϵ的邻域中样本个数的阈值。
首先,先明确两个概念:
1) ϵ-邻