一、聚类介绍
聚类分析是指事先不了解每一个样本的类别或其他的先验知识,而唯一的分类根据是样本的特征,利用某种相似度度量的方法,把特征相同或相似的归为一类,实现聚类划分,聚类是一种无监督分类方法。同一个聚合类中的模式比不同聚合类中的模式更相似,从而对模式间的相互关系做出估计。聚类分析的结果可以被用来对数据提出初始假设,分类新数据,测试数据的同类型及压缩数据。
1、聚类的定义
在模式空间S中,若给定N个样本X1,X2,...,XN,聚类的定义是:按照相互类似的程度找到相应的区域R1,R2,...,RM,对任意Xi(i=1,2,...,N)归入其中一类,而且不会同时属于两类。
2、聚类准则
我们需要一种聚类准则来评判聚类的优劣,以便知道我们的聚类结果是否足够好。聚类的优劣是就某一种评价准则而言,很难有对各种准则都表现优良的聚类方法。
聚类准则的确定基本上有两种方法:
(1)试探法:根据所分类的问题,确定一种准则,并用它来判断样本分类是否合理。例如,以距离函数作为相似性的度量,用不断修改的阈值来探究对此种准则的满足程度,当取得极小值时,就认为得到了最佳划分。基于试探的聚类算法包括最临近规则的试探法、最大最小距离试探法和层次聚类试探法。
(2)规定一种准则函数,其函数值与样本的划分有关,当取得极小值时,就认为得到了最佳划分。
有一种简单而又广泛应用的准则,即误差平方和准则:
设有N个样本,分别属于类,设有Ni个样本的类,其均值为