6.4 系统聚类的性质及类的确定
(3)根据统计量确定
上一讲介绍了 R-square,这里再补充 3 个用于确定分类个数的统计量。半偏 R-square:
即 k+1 类的 R-square 减去 k 类的 R-square,其用于衡量 k 类与 k+1 类的 R-square 的增值 。如果半偏 R-square 比较大,说明 k+1 类的 R-square 更大,更合理,因此不应该合并为 k 类。伪 F 统计量:
因为比较像 F 分布的定义,所以称为“伪F”
Bk 是组间平方,我们希望 B_k 比较大,进而当伪 F 统计量的值比较大的时候,认为其效果良好。伪 t2 统计量:
评价将类 K 和类 L 合并的效果。这是半偏 R-square 的变形,同样地,当它比较大的时候,认为 k+1 类更好。
(4)根据谱系图
几个准则:各类重心之间的距离必须很大(各类差异性显著);
确定的类中,各类所包含的元素不要很多;
类的个数必须符合实用目的;
若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。
例子-- 16 个地区的聚类
6.5 动态聚类法
当样本量比较大时,系统聚类的计算量很大。
动态聚类法基本思想:首先选取 k 个点,其两两间的距离比较大;由此确定出初始的分类,并评估该分类的好坏,如果不好则调整分类。
流程图如下动态聚类的步骤
其优点是适用于大样本,计算简单。缺点是依赖于初始的 k 个点。
改进:换一批凝聚点,如果两种分类结果相同,则接受。否则考虑另外的聚类算法。
(一)凝聚点的选取与初始分类的确定