摘要: 流形数据由一些弧线状或环状的类簇组成,其特点是同一类簇的样本间距离差距较大。密度峰值聚类算法不能有效识别流形类簇的类簇中心且分配剩余样本时易引发样本的连续误分配问题。为此,本文提出面向流形数据的共享近邻密度峰值聚类(density peaks clustering based on shared nearestneighbor for manifold datasets, DPC-SNN)算法。提出了一种基于共享近邻的样本相似度定义方式,使得同一流形类簇样本间的相似度尽可能高;基于上述相似度定义局部密度,不忽略距类簇中心较远样本的密度贡献,能更好地区分出流形类簇的类簇中心与其他样本;根据样本的相似度分配剩余样本,避免了样本的连续误分配。DPC-SNN算法与DPC、FKNN-DPC、FNDPC、DPCSA及IDPC-FA算法的对比实验结果表明,DPC-SNN算法能够有效发现流形数据的类簇中心并准确完成聚类,对真实以及人脸数据集也有不错的聚类效果。
- 关键词:
- 密度峰值 /
- 聚类分析 /
- 流形数据 /
- K近邻 /
- 共享近邻 /
- 流形数据 /
- 样本相似度 /
- 数据挖掘 /
- 图像处理
聚类算法是在不存在先验知识的前提下,依据类簇内样本相似度尽可能大而类簇间的样本相似度尽可能小的原则,将样本划分成多个类簇。迄今为止,聚类算法已被广泛应用于社区检测[1]、生物信息[2]、网络安全[3]、图像处理[4]、模式识别[5]等多种不同领域。
聚类算法问世至今,已有多种聚