聚类分析----聚类算法(简单聚类方法)

基于相似性阈值和最小距离原则的简单聚类方法

这种方法的中心一旦选定则不会变换。

根据相似性阈值和最小距离原则的简单聚类方法

显然,结果很大程度依赖于T的选取,和待分类特征矢量参与分类的次序的选取。

条件与约定

设待分类的模式的特征矢量为{x_1,x_2,...,x_N},选定类内距离门限T。

算法思想

计算特征矢量到各聚类中心的距离,与T作比较,从而决定归为哪一类或作为新的一类的中心。

算法步骤

  1. 任意选取一个特征矢量作为第一个聚类中心,如z_1
  2. 计算下一个特征矢量到z_1的距离,若小于T则归为一类,否则作为新的一类。
  3. 设现有聚类中心\{z_1,z_2,...,z_k\},计算剩余的特矢量x_i到各中心的距离,如果都大于T,则归为新的一个聚类中心,否则归为距离最近的那类。重复此步直至所有的模式都划完类别。

最大最小距离算法

这种算法的聚类结果与θ的选取以及第一个聚类中心的选取有关。

条件与约定

设待分类的模式的特征矢量为{x_1,x_2,...,x_N},选定比例系数θ。

算法思想

在特征失量集中选取最大距离选取新的聚类中心,选取最小距离进行归类。

算法步骤

  1. 任意选取一个特征矢量作为第一个聚类中心,如z_1
  2. 计算剩余各特征矢量到z_1的距离,选取最大的作为新的聚类中心z_2.
  3. 计算剩余各特征矢量到z_1z_2的距离并求出最小值,即                                                                          
  4. d_l = \underset{i}{max}[min(d_{i1},d_{i2})]>\theta \left \| z_1-z_2 \right \|,则相应的特征矢量xl作为第三个聚类中心,然后执行下一步。否则跳至第六步
  5. 设现在有k个聚类中心,计算未被作为中心的各特征矢量到各聚类中心的距离d_{ij},并计算出d_l=\underset{i}{max}[min[d_{i1},d_{i2},...,d_{ik}]],如果d_l >\theta \left \| z_1-z_2 \right \|,则作为新的聚类中心,并重复此步,否则进行下一步。
  6. 这时已经不会有新的中心了,将特征矢量按最小距离原则分到各类中去。

谱系聚类方法

是效果较好,经常使用的方法之一,这种算法的聚类结果与类间距离的选取以及类数有关。

不同的类间度量方式将导致不同的分层结构。基于最远距离的聚类算法在聚类过程中,类域的半径增长最慢,倾向于“成团”聚类;基于最近距离的聚类算法则可能产生细长分布的类;因此这两种算法都对孤立点和噪声很敏感。显然,用平均距离或者重心距离可以避免上述问题。

条件与约定

设待分类的模式的特征矢量为{x_1,x_2,...,x_N},G_{i}^{(k)}表示第k次合并6时的第i类。

算法思想

首先,将每个模式都视为一类,然后计算它们间的距离,选出最为相近的两个合并为一类,直到最后分成两类为止。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值