matlab费希尔最优聚类,实用统计方法——第三讲 聚类分析.ppt

引言 距离的度量 k-均值聚类及SPSS实现 分层聚类及SPSS实现 附录(聚类的相关Matlab命令) 计算两组间的欧式距离,如:D12=D21=[(7.90-7.68)2+(39.77-50.37)2+‥‥+ +(13.29-14.87)2] 系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。而K—均值法是一种快速聚类法,采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。 K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤: 1.将所有的样品分成K个初始类; 2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标; 3.重复步骤2,直到所有的样品都不能再分配时为止。 K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。 下面通过一个具体问题说明K均值法的计算过程。 【例】假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见表5.9。 试将以上的样品聚成两类。 第一步:按要求取K=2,为了实施均值法聚类,我们将这些样品随意分成两类,比如(A、B)和(C、D),然后计算这两个聚类的中心坐标,见表5.10所示。 表5.10中的中心坐标是通过原始数据计算得来的,比如(A、B)类的, 等等。 第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类。对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离: 由于A到(A、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离: 由于B到(A、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如表5.11所示。 第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,得结果见表5.12。 到现在为止,每个样品都已经分配给距离中心最近的类,因此聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类。 有序样品的聚类分析法 以上的系统聚类和K—均值聚类中,样品的地位是彼此独立的,没有考虑样品的次序。但在实际应用中,有时样品的次序是不能变动的,这就产生了有序样品的聚类分析问题。例如对动植物按生长的年龄段进行分类,年龄的顺序是不能改变的,否则就没有实际意义了;又例如在地质勘探中,需要通过岩心了解地层结构,此时按深度顺序取样,样品的次序也不能打乱。 如果用X(1) , X(2) , …,X(n)表示n个有序的样品,则每一类必须是这样的形式,即X(i) , X(i+1),…,X(j) ,其中1 ? i ? n,且j ? n,简记为Gi = {i,i+1,…,j}。在同一类中的样品是次序相邻的。这类问题称为有序样品的聚类分析。 一、有序样品可能的分类数目 n个有序样品共有(n ?1)个间隔,分成k类相当于在这(n ?1)个间隔中插入k ?1根“棍子”。由于不考虑棍子的插入顺序,是一个组合问题,共有 种插法。 图5.4 有序样品的分类法 二、费希尔最优求解法 这里需要注意,若要寻找将n个样品分为k类的最优分割,则对于任意的j(k ? j ? n),先将前面j ?1个样品最优分割为k ?1类,得到p(j ? 1,k ? 1),否则从j到n这最后一类就不可能构成k类的最优分割,参见图5.6。再考虑使L[b(n,k)]最小的j*,得到p(n,k)。 因此我们得到费希尔最优求解法的递推公式为 三、一个典型例子 【例5.4】为了了解儿童的生长发育规律,今随机抽样统

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值