层次聚类(Hierarchical Clustering)通过计算不同类别数据之间的相似度,创建一棵有层次的树,层次聚类不需要指定具体类别,聚类结束后,可以在任意层次横切一刀,得到指定数目的簇;

层次聚类一般分为两类:
- 自下而上的凝聚方法(agglomerative:先将所有样本的每个点都看成一个簇,然后找出距离最小的两个簇进行合并,不断重复到预期簇或者其他终止条件),凝聚方法的代表算法:AGNES,Agglomerative Nesting;
- 自顶向下的分裂方法(divisive:先将所有样本当作一整个簇,然后找出簇中距离最远的两个簇进行分裂,不断重复到预期簇或者其他终止条件),分裂方法的代表算法:DIANA,Divisive Analysis;

自下而上的层次聚类:
AGNES算法步骤:
- 1.每个样本作为一个簇;
- 2.计算任意两个簇的距离,找出距离最近的两个簇,合并这两个簇作为一个簇;
- 3.重复步骤2,直到簇的个数达到指定最小值,终止。
自上而下的层次聚类:
DIANA算法步骤:
- 1.所有样本作为一个簇;
- 2.在同一个簇中,计算任意两个样本之间的距离,找到距离最远的两个样本 a a a和 b b b,将 a a a和 b b b作为两个簇的中心;
- 3.计算原来簇中剩余样本距离 a , b a,b a,b的距离,距离哪个中心近,就分配到哪个簇中;
- 4.重复步骤2和步骤3,直到簇的个数达到指定最大值,终止。
关于AGNES,还有一个概念:簇的距离。简单情况下,我们计算两个簇的质心(比如簇内样本取平均),我们使用两个质心间的距离作为簇的距离
4万+

被折叠的 条评论
为什么被折叠?



