目录
聚类相关理论
聚类分析是研究分类问题的多元统计方法。主要分为层次聚类(即系统聚类)和动态聚类。
合理的聚类的关键:使得同一类别内的观测尽可能地“相似”,但不同类别之间有明显区分。
动态聚类vs系统聚类
系统聚类法是一种比较成功的聚类方法。然而当样本点数量十分庞大时,则是一件非常繁重的工作,且聚类的计算速度也比较慢。比如在市场抽样调查中,有4万人就其对衣着的偏好作了回答,希望能迅速将他们分为几类。这时,采用系统聚类法就很困难,而动态聚类法就会显得方便,适用。动态聚类使用于大型数据。
基本思想
系统聚类:先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。
动态聚类:选取若干个样品作为凝聚点,计算每个样品和凝聚点的距离,进行初始分类,然后根据初始分类计算其重心,将重心作为新的凝聚点再进行第二次分类,一直到所有样品不再调整为止。
基本操作步骤_系统聚类
1. 计算