Agglomerative Clutsering 是一种自底而上的层次聚类方法,它能够根据指定的相似度或距离定义计算出类之间的距离。(Hierarchical clustering两种方式的其中一种,另一种是divisive,自顶而下)
Dendrogram:依次将符合条件的类相连,最后得到使算法与数据均形象化的树状结构图。
Dendrogram专门用来描述经层次聚类算法得到的结果。
Dendrogram:依次将符合条件的类相连,最后得到使算法与数据均形象化的树状结构图。
Dendrogram专门用来描述经层次聚类算法得到的结果。
Agglomerative Clustering Algorithm
1.将每一个元素单独定为一类
2.重复:每一轮都合并指定距离(对指定距离的理解很重要)最小的类
3.直到所有的元素都归为同一类
1.将每一个元素单独定为一类
2.重复:每一轮都合并指定距离(对指定距离的理解很重要)最小的类
3.直到所有的元素都归为同一类
Agglomerative Clustering的三种不同方法
依据对相似度(距离)的不同定义,将Agglomerative Clustering的聚类方法分为三种:Single-linkage,Complete-linkage和Group average.
Single-linkage:要比较的距离为元素对之间的最小距离
Complete-linkage:要比较的距离为元素对之间的最大距离
Group average:要比较的距离为类之间的平均距离(平均距离的定义与计算:假设有A,B两个类,A中有n个元素,B中有m个元素。在A与B中各取一个元素,可得到他们之间的距离。将nm个这样的距离相加,得到距离和。最后距离和除以nm得到A,B两个类的平均距离。)
依据对相似度(距离)的不同定义,将Agglomerative Clustering的聚类方法分为三种:Single-linkage,Complete-linkage和Group average.
Single-linkage:要比较的距离为元素对之间的最小距离
Complete-linkage:要比较的距离为元素对之间的最大距离
Group average:要比较的距离为类之间的平均距离(平均距离的定义与计算:假设有A,B两个类,A中有n个元素,B中有m个元素。在A与B中各取一个元素,可得到他们之间的距离。将nm个这样的距离相加,得到距离和。最后距离和除以nm得到A,B两个类的平均距离。)
接下来用这三种不同的方法,对同一数据进行层次聚类。
单个元素之间距离表:
单个元素之间距离表:
d为距离;k为类的个数;K为现有的具体的类
1.Single-linkage 每次取最短的最小距离
2.Complete-linkage 每次取最短的最大距离
3.Group average 取最短的平均距离