摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一。但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有限。本文基于离散度的思想,采用新的加权距离函数代替了传统算法的欧氏距离,在一定程度上优化了k-means算法的聚类结果。
关键词:聚类;k-means算法;离散度
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)34-0167-03
1 概述
在当今时代,数据可以说是最宝贵的财富,数据挖掘算法成了发掘数据财富的最有效手段,而聚类分析可以算是数据挖掘算法的重要组成部分。聚类分析是指根据物理或者抽象对象的集合相似度来分组的分析过程,目标是尽量将类似的对象归为一类。聚类源于各种领域,包括计算机科学,数学,统计学,经济学和生物学等。用于衡量不同数据元素之间的相似性,并根据相似性将数据元素归类到不同的簇中。而根据对象间相似性度量和聚类评价准则的不同,聚类方法可以分成五类:层次方法,划分方法,基于密度的方法,基于网格的方法和基于模型的方法[1]。
K-means算法是很典型的基于距离的聚类算法,同是也是一种基于划分的算法,采用距离作为相似性的评价指标。该算法简单且易于使用,运行速度快,与其他聚类算法相比应用更加广泛[2]。但同时k-means的缺陷也十分明显。首先,算法只能求得局部最优解,无法得到全局最优;其次,算法是硬聚类,初始中心点的选择对最终结果的影响相当大;再次,对于异常点非常敏