一种新的最佳聚类数确定方法
一种新的最佳聚类数确定方法
摘
要:
为了更有效地确定数据集的聚类数最佳聚类数,提出一种新的确定数据集最佳聚类数
的算法。
该算法借签层次聚类的思想,
一次性地生成所有可能的划分,
然后根据有效性指标选择
最佳的聚类划分,
进而获得最佳聚类数。
理论分析和实验结果证明,
该算法具有良好的性能。
关
键词:
层次聚类;最佳聚类数;聚类有效性指标;聚类
最佳聚类数的判定通常采用一种基于迭代的
trial-and-error
过程
[1]
进行,该过程是在给
定的数据集上,使用不同的参数(通常是聚类数
k
)
,
运行特定的聚类算法
,
对数据集进行不同的
划分,
然后计算每种划分的指标值。
通过比较各个指标值,
其中符合预定条件的指标值所对应的
聚类个数被认为是最佳的聚类数。
实际上,
trial-and-error
过程存在两个不足之处
:(1)
聚类数
k
值的确定对于缺乏丰富聚类分析经验的用户来说是难以准确确定的
[2]
,这需进一步提出寻找更
合理的聚类数
k
的方法<