这是14年发在science上的一篇关于聚类的文章。从做毕设接触过的几个方法来看,这个方法效果很好。有很大的普适性。
作者Alex Rodriguez and Alessandro Laio,来自SISSA(意大利国际高等研究院)。
这篇文章简洁有效的介绍了文章中算法的三大创新点,并且通过多个例子证明了算法的能力。
- 创新1,文章给出了对于聚类中心很好的抽象,文章认为聚类中心应该有以下特点。一方面拥有局部最大密度,另一方面距离密度比它大的点的距离相当远。
- 创新2, 对于非聚类中心点,按照从大密度点到小密度点,依次划分给密度比自身大的最近点所属的簇。
- 创新3, 认为局部密度低,而且离开密度比它大的最近点的距离远的点是噪声。并进一步定义了簇的边界区, 并认为比边界区中最大密度点小的点的点是cluster halo,也可以说是噪声。
算法基本上只有参数dc,而且文章举例表明算法对于dc有很好的鲁棒性。算法的一大缺点是当数据量较小的时候,密度的估计可能就无法反映数据的真实分布。文章给出参考文献(10、11)用于密度估计。对于图像相似度的衡量文章也给出了参考文献(19)。最后文章还实验了在维度变化时创新1中两个量乘积的分布情况,为后续聚类中心自动选择和统计检验提供了思路。