一、基于试探的聚类搜索算法(类别数由少到多)
1、按最邻近规则的简单试探法
基本思想:假设有N个样本{X1,X2...Xn},要求按距离阈值T分类到聚类中心{Z1,Z2,Z3…}
步骤:
step1:将第一个样本作为第一类的中心,Z1=X1.
step2:将剩下的样本计算||Xi-Z1 ||,若大于阈值T,则Xi作为新的一类的中心Z2.
step3:将剩余样本分别计算||Xi-Z1||,||Xi-Z2||,若||Xi-Z1||>T且||Xi-Z2||>T,则取Xi作为新的聚类的中心Z3。否则Xi属于距离Z1和Z2的较近者。
step4:按上述策略重复下去,直至将N个模式分类完毕。
优点:计算简单,若模式样本的集合分布的先验知识已知,则可获得较好的聚类结果。
缺点:在实际中,对于高维模式样本很难获得准确的先验知识,因此只能选用不同的阈值和起始点来试探,并对结果进行验证。
这种方法在很大程度上依赖于以下因素:
第一个聚类中心的位置(初始化问题)
待分类模式样本排列次序(聚类样本的选择问题)
距离阈值T的大小(判决准则问题)
样本分布的几何性质(样本的固有特性问题)
2、最大最小距离算法
基本思想:以试探类间欧式距离为最大作为预选出聚类中心的条件