Rodriguez A, Laio A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492-1496.
这是朋友推荐给我的一篇文章,大体的思想是:通过计算全局(当然也可以优化到局部)所有Sample相互之间的距离,并对某个Sample与其他所有点之间的距离进行排序,通过一个threshold对距离进行分割获取有效后,根据该Sample有效距离内的其他Sample的数量来推算该点的密度,再计算低密度点到高密度点的最小距离(最高密度点取最大距离),通过密度和最小距离这两个参数构建直角坐标系,在这个直角坐标系中最右上角的点即聚类中心点。(这一块的理论可以参考http://blog.csdn.net/itplus/article/details/38926837的文章,他讲得很详细,我这里只是大概描述一下这个算法的流程)
其实原来打算用在自己的实验中的,结果发现效果并不是我所需要的,所以这里我就公开一下python实现的代码,供大家参考,如果有不足请一定指出,共同学习进步。
先上效果图一张(上图是Sample分布图,下图则是密度-距离图):