一、密度聚类
密度聚类的思想,在于通过计算样本点的密度的大小来实现一个簇/类别的形成,样本点密度越大,越容易形成一个类,从而实现聚类。
密度聚类算法可以克服基于距离的聚类算法只能发现凸型集合的缺点,其可根据密度的分布发现任意形状的聚类,且对噪声数据不敏感。
因密度聚类算法需计算每个样本点附件的样本密度,因此计算复杂度比较大。
二、DBSCAN算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法,一个比较具有代表性的基于密度的聚类算法。与划分聚类、层次聚类不同的是,它将簇定义为密度相连的样本点的最大集合,可在有噪声样本的样本集中发现任意形状的簇。
1、DBSCAN算法的一些概念
a. 对象:可看作样本点
b. 对象的 - 邻域:给定对象在半径 内的区域。
c. 核心对象:给定一个数目 m ,如果一个对象的 - 邻域至少包含 m 个对象,则称该对象为核心对象。
d. 直接密度可达:如果对象 p 是在 对象 q 的 - 邻域内,且对象 q 是一个核心对象。我们可以说从对象 q 出发,对象 p 是直接密度可达的。
e. 密度可达:如果对象 p 是从对象 q 出发关于 和 m(含义同上)直接密度可达的;又有 如果对象 r 是从对象 p 出发关于 和 m 直接密度可达的,那么对象 r 是从对象 q 出发关于 和 m 密度可达的;
f. 密度相连:若存在一个对象 o ,使得对象 p 和 q 是从 对象 o 关于 和 m 密度可达的,那么对象 p 和 q 是关于