要点
层次聚类构建了一棵包含数据点的树(层次组织)。如果你不了解树的概念,可以想想你用来组织文件的文件夹,实体的或者电脑上的(文件组成一个工程,不同工程的文件夹再组合成一个“正在进行的工程”文件夹)。
设想你没有秘书并且没有时间亲手做这些:一个自底向上的聚类方法可以帮你做这些事,只要你设立了一个合适的方法去测量独立数据与已经合并点的数据集之间的相似度。
这个方法之所以成为“自底向上”是因为它从独立的数据点开始,合并最相似的点,然啊后合并最相似的集合,直到只剩一个集合。聚类的数目在开始的时候并没有指定:一个合适的数值可以通过数次实验在合适的相似度层次来切割树得到。
通过层次聚类,圣诞老人现在可以只用一个巨大的红盒子来组织圣诞礼物了。当打开它时,会发现里面有一系列盒子,再打开,还是盒子,直到打开“叶”盒子才找到实际装的礼物。