判别分类结果好坏的一般标准:类内距离小,类间距离大。
类内的准则函数
设有待分类的模式集 在某种相似性测度基础上被划分为C类,
类内距离准则函数
定义为:(
表示
类的模式均值矢量。)
我们的目标是令取最小,这种准则也称为误差平方和准则。
显然,在样本集{
}和类数给定的条件下,
的值取决于模式类别的分划与类心的选取。
还可以视情况使用加权类内距离准则。
类间距离准则
式中:为
类的模式平均矢量,m为总的模式平均矢量。
设为
所含模式个数,则
加权类间距离准则
基于类内距离类间距离的准则函数
设带分类模式集{xi,i=1,2,...,N},将它们分成c类,其中Wj类含nj个模式,分类后各模式记为。
的类内差阵定义为
式中:mj为wj类的模式均值矢量
总的类内离差阵定义为
类间离差阵定义为
式中:m为所有待分类模式的均值矢量
总的离差阵定义为
聚类的基本目的是使或
。利用线形代数有关矩阵的迹和行列式的性质,可以定义如下4个聚类的准则函数:
由它们的构造可以看出,为得到好的聚类结果,应该使它们尽量的大。