最近看了一篇关于基于密度的聚类算法---Density Peaks Algortihm, 把自己对该聚类算法的理解,写在这篇文献笔记中。
一、算法思想
这个DP算法假设聚类中心被较低局部密度的点所围绕,并且这些点距离具有较高局部密度的点有相对更大的距离。因此,对于数据集中的任何数据点i, DP算法计算出两个参数值:
(1) 局部密度
计算局部密度需要一个距离阈值 , 局部密度就是距离某点i的距离小于距离阈值的所有点的数量。在文献中推荐设置阈值已保证局部密度在样本总数的1%-5%之间。
(2) 点i距离高局部密度点的距离
点i距离高局部密度点的距离,是要计算局部密度比点i的局部密度高的所有点X,距离点i距离最小的