1、算法简介
(1)概述:密度峰值聚类算法(DPCA)是一种可以发现非凸簇类的新型聚类算法,该算法的核心思想建立在对簇类中心点或者密度峰值点的两个重要假设之上:
[1] 假设一:簇类中心点的局部密度大于其周围相邻点的局部密度;
[2] 假设二:簇类中心点与其他中心点间有着相对较大的距离。
上述两种假设在给出簇类中心点描述的同时,也给出了一种检测中心点的准则。
该算法的核心思想在于对聚类中心点的计算,聚类中心点具有本身密度大和与其他密度更大的数据点之间的距离相对更大的特点。 算法首先通过使用一截断距离来计算每个点的局部密度,然后计算各数据点与局部密度高于它们的数据点之间的最小距离;然后根据计算出的每个点的局部密度和最小距离绘制决策图,接着在决策图中人工选取聚类的中心,之后将剩余的非聚类中心的数据点划分到与之距离最近的聚类中心所在的簇中;最后再将所得到的各个簇划分为簇核心和簇光晕,从而得到最终的聚类结果。使用DPCA算法进行聚类时只需要计算一次距离,并且不需要进行迭代,因此算法的计算速度很快。但是,该算法选择聚类中心的时候需要在决策图中人工选取,这增加了算法的冗余性,不利于算法的自动化,且在最后将簇划分为簇核心和簇光晕时会将簇边缘的本属于簇核心的一些点划分到簇光晕中,影响最终的聚类效果。
(2)主要用途:密度聚类,同DBSCAN算法,发现数据中的类别关系。
(3)优缺点
[1] 优点:该聚类算法可以得到非球形的聚类结果,可以很好地描述数据分布ÿ