多元统计分析最短距离法_多元统计分析第10讲（聚类分析：动态聚类）

weixin_39738774

于 2020-12-19 14:15:47 发布

阅读量3.8k

点赞数

文章标签：多元统计分析最短距离法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39738774/article/details/111530038

版权

6.4 系统聚类的性质及类的确定

(3)根据统计量确定

上一讲介绍了 R-square，这里再补充 3 个用于确定分类个数的统计量。半偏 R-square：

即 k+1 类的 R-square 减去 k 类的 R-square，其用于衡量 k 类与 k+1 类的 R-square 的增值。如果半偏 R-square 比较大，说明 k+1 类的 R-square 更大，更合理，因此不应该合并为 k 类。伪 F 统计量：

因为比较像 F 分布的定义，所以称为“伪F”

Bk 是组间平方，我们希望 B_k 比较大，进而当伪 F 统计量的值比较大的时候，认为其效果良好。伪 t2 统计量：

评价将类 K 和类 L 合并的效果。这是半偏 R-square 的变形，同样地，当它比较大的时候，认为 k+1 类更好。

(4)根据谱系图

几个准则：各类重心之间的距离必须很大(各类差异性显著)；

确定的类中,各类所包含的元素不要很多；

类的个数必须符合实用目的；

若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。

例子-- 16 个地区的聚类

6.5 动态聚类法

当样本量比较大时，系统聚类的计算量很大。

动态聚类法基本思想：首先选取 k 个点，其两两间的距离比较大；由此确定出初始的分类，并评估该分类的好坏，如果不好则调整分类。

流程图如下动态聚类的步骤

其优点是适用于大样本，计算简单。缺点是依赖于初始的 k 个点。

改进：换一批凝聚点，如果两种分类结果相同，则接受。否则考虑另外的聚类算法。

(一)凝聚点的选取与初始分类的确定

最低0.47元/天解锁文章

weixin_39738774

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多元统计分析最短距离法_多元统计分析第10讲（聚类分析：动态聚类）

6.4 系统聚类的性质及类的确定(3)根据统计量确定上一讲介绍了 R-square，这里再补充 3 个用于确定分类个数的统计量。半偏 R-square：即 k+1 类的 R-square 减去 k 类的 R-square，其用于衡量 k 类与 k+1 类的 R-square 的增值。如果半偏 R-square 比较大，说明 k+1 类的 R-square 更大，更合理，因此不应该合并为 k 类...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。