这是Science上一篇聚类的文章:Clustering by fast search and find of density peaks(CFSFDP)。算法的思想很简单,但之前却没有人想到过。所以,仅仅是做聚类的人,也是有希望登大顶的。
为了简化描述,我们称应该归为一类的数据为簇。作者首选讨论了k-means的不足,因为k-means方法将点聚类到临近的簇中去,导致无法处理非球面形状的簇。DBSCAN方法需要设置一个密度的阈值,然后通过这个阈值确定cluster,设置阈值的过程很麻烦,是这个方法的一个缺点。k-means也有类似的缺点,就是需要预先设置k。作者设计了一种方法,既可以处理非球面的簇,又可以自动地检测簇数量的多少。因为该方法不需要反复的迭代运算,所以效率非常高。
算法假设聚类的簇的中心符合以下规则:1. 簇的中心被拥有更低密度的邻居包围着; 2. 并且这些邻居和更高密度的其他点都距离比较远。
N个数据对象