基于相似性阈值和最小距离原则的简单聚类方法
这种方法的中心一旦选定则不会变换。
根据相似性阈值和最小距离原则的简单聚类方法
显然,结果很大程度依赖于T的选取,和待分类特征矢量参与分类的次序的选取。
条件与约定
设待分类的模式的特征矢量为{},选定类内距离门限T。
算法思想
计算特征矢量到各聚类中心的距离,与T作比较,从而决定归为哪一类或作为新的一类的中心。
算法步骤
- 任意选取一个特征矢量作为第一个聚类中心,如。
- 计算下一个特征矢量到的距离,若小于T则归为一类,否则作为新的一类。
- 设现有聚类中心,计算剩余的特矢量到各中心的距离,如果都大于T,则归为新的一个聚类中心,否则归为距离最近的那类。重复此步直至所有的模式都划完类别。
最大最小距离算法
这种算法的聚类结果与θ的选取以及第一个聚类中心的选取有关。
条件与约定
设待分类的模式的特征矢量为{},选定比例系数θ。
算法思想
在特征失量集中选取最大距离选取新的聚类中心,选取最小距离进行归类。
算法步骤
- 任意选取一个特征矢量作为第一个聚类中心,如。
- 计算剩余各特征矢量到的距离,选取最大的作为新的聚类中心.
- 计算剩余各特征矢量到,的距离并求出最小值,即
- 若,则相应的特征矢量xl作为第三个聚类中心,然后执行下一步。否则跳至第六步
- 设现在有k个聚类中心,计算未被作为中心的各特征矢量到各聚类中心的距离,并计算出,如果,则作为新的聚类中心,并重复此步,否则进行下一步。
- 这时已经不会有新的中心了,将特征矢量按最小距离原则分到各类中去。
谱系聚类方法
是效果较好,经常使用的方法之一,这种算法的聚类结果与类间距离的选取以及类数有关。
不同的类间度量方式将导致不同的分层结构。基于最远距离的聚类算法在聚类过程中,类域的半径增长最慢,倾向于“成团”聚类;基于最近距离的聚类算法则可能产生细长分布的类;因此这两种算法都对孤立点和噪声很敏感。显然,用平均距离或者重心距离可以避免上述问题。
条件与约定
设待分类的模式的特征矢量为{},表示第k次合并6时的第i类。
算法思想
首先,将每个模式都视为一类,然后计算它们间的距离,选出最为相近的两个合并为一类,直到最后分成两类为止。