算法分析
数字技术
与应用
118
聚类是数据挖掘技术中一个非常重要的分支,它是在没有任何
先验知识的前提下,从海量数据中提取出有价值的、
未知的数据。
实
现满足要求的簇的集合。
1 聚类分析研究现状
聚类分析是一个将数据集划分成若干个子集的过程,并使同一
集合内的数据对象具有较高的相似度,而不同集合中的数据对象不
相似。
国内外对聚类分析的研究已经有很多年,学者们研究的主要
内容是基于距离的聚类分析,K-Medoids算法、
K-Means算法以及
其他的聚类算法的挖掘工具在众多的统计软件或者系统中得到广
泛的应用。
1967年,MacQueen首次提出K均值聚类算法(K-means算法)。
迄今为止,很多聚类任务都选择该经典算法。
该算法的核心思想是
找出K个聚类中心
1
c
、
2
c
,…,
k
c
,使得每一个数据点
i
x
和与其最近的
聚类中心
v
c
的平方距离和被最小化。
1998年,Huang为克服K-Means算法仅适合于数值属性数据聚
类的局限性,提出了一种适合分类属性数据聚类的K-Modes算法,
该算法对K-Means算法进行了3点扩展:引入了处理分类对象的新
的相异性度量方法,使用modes代替means,并在聚类过程中使用基
于频度的方法修正modes,以使聚类代价函数值最小。
2002年,Sun等人将B