一种基于密度峰值的聚类算法

最新推荐文章于 2024-09-18 21:48:45 发布

Mingming_Buaa

最新推荐文章于 2024-09-18 21:48:45 发布

阅读量9.4k

点赞数 2

分类专栏：机器学习文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/Mingming_Buaa/article/details/84552764

版权

该博客介绍了2014年Science上发表的一种基于密度峰值的聚类算法，对比了与k-means的区别，指出该算法适用于非球形簇，并且无需预先指定类别数量。算法核心在于通过局部密度和距离判断点是否为中心点，具有无需迭代和较少经验成分的优点，但也存在主观色彩的缺点。

摘要由CSDN通过智能技术生成

一种基于密度峰值的聚类算法

1.引入

2014年Science刊发了一篇标题为Clustering by fast search and find of density peaks的文章，文章中介绍了一种基于密度峰值的聚类算法。
传统的聚类算法k-means，通常不适用于非球形的簇。这里所谓的球形簇是根据k-means算法基本原理得到的。为了解释这个所谓的球形簇，在这里简单的回忆一下k-means算法。k-means算法的基本原理就是距离近的应该被分到一个类别。因此我们可以说，k-means其实是基于距离的聚类算法。在算法开始之前，我们需要指定聚类的类别个数k的值，指定完k值之后需要初始化聚类的中心点，然后计算要聚类点与中心点的聚类，取离其最近的中心点为该点所属类别的中心点，直到所有的点都分完类。然后，对于每个类，用每个类所有点的均值作为新的中心点，继续聚类算法，直到迭代到了指定的轮数，或者所有类别的中心点固定了。从k-means算法的执行过程，我们可以看到，如果同类点的分布不是球状，k-means算法便无能为力。
而本文提出的基于密度峰值的算法则可以解决k-means的不适用于非球状簇分类的问题。同时，本文提出的方法不需要指定类别的数量。

2.基于密度峰值聚类算法的基本思想

基于密度峰值聚类算法的基本思想与基于密度算法DBSCAN的基本思想类似，都是通过某个点周围的点来判断某个点是不是属于某个类。而不同于基于密度算法DBSCAN的通过密度直达、密度可达、密度相连三种基本关系判断两个点是否属于同类的思想，基于密度峰值聚类算法的思想要简单的多。对于每个类的中心点，基于密度峰值聚类算法认为，中心点周围的点相比较该类的其他点都要多，同时，本类的中心点应该距离其他类中心点要足够远。