多元统计分析最短距离法_多元统计分析第10讲(聚类分析:动态聚类)

6.4 系统聚类的性质及类的确定

(3)根据统计量确定

上一讲介绍了 R-square,这里再补充 3 个用于确定分类个数的统计量。半偏 R-square:

即 k+1 类的 R-square 减去 k 类的 R-square,其用于衡量 k 类与 k+1 类的 R-square 的增值 。如果半偏 R-square 比较大,说明 k+1 类的 R-square 更大,更合理,因此不应该合并为 k 类。伪 F 统计量:

因为比较像 F 分布的定义,所以称为“伪F”

Bk 是组间平方,我们希望 B_k 比较大,进而当伪 F 统计量的值比较大的时候,认为其效果良好。伪 t2 统计量:

评价将类 K 和类 L 合并的效果。这是半偏 R-square 的变形,同样地,当它比较大的时候,认为 k+1 类更好。

(4)根据谱系图

几个准则:各类重心之间的距离必须很大(各类差异性显著);

确定的类中,各类所包含的元素不要很多;

类的个数必须符合实用目的;

若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。

例子-- 16 个地区的聚类

6.5 动态聚类法

当样本量比较大时,系统聚类的计算量很大。

动态聚类法基本思想:首先选取 k 个点,其两两间的距离比较大;由此确定出初始的分类,并评估该分类的好坏,如果不好则调整分类。

流程图如下动态聚类的步骤

其优点是适用于大样本,计算简单。缺点是依赖于初始的 k 个点。

改进:换一批凝聚点,如果两种分类结果相同,则接受。否则考虑另外的聚类算法。

(一)凝聚点的选取与初始分类的确定

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值