1、层次聚类(Hierarchical clustering)的步骤
假设有N个待聚类的样本,对于层次聚类来说,其步骤为:
(1)初始化:把每个样本各自归为一类(每个样本自成一类),计算每两个类之间的距离,在这里也就是样本与样本之间的相似度(本质还是计算类与类之间的距离)。
(2)寻找各个类之间最近的两个类,把它们归为一类(这样,类的总数就减少了一个)
(3)重新计算新生成的这个类与各个旧类之间的距离(相似度)
(4)重复(2)(3)步,直到所有的样本都归为一类,结束。
2、详细描述:
整个聚类过程其实是建立了一棵树,在建立过程中,可以通过第二步上设置一个阈值,当最近的两个类的距离大于这个阈值,则认为迭代终止。
另外,关键的一步是第三步,如何判断两个类之间的相似度有不少种方法,下面介绍三种:
(1)SingleLinkage:又叫做nearest-neighbor,就是取两个类中最近的两个样本之间的距离作为两个集合的距离,即:最近的两个样本之间的距离越小,
这两个类之间相似度越大,容易造成一种叫做Chaining的效果,两个类明明从“大局”上离的比较远,但由于其中个别点距离比较近就被合并了。
这种合并之后Chaining效应会进一步扩大,最后得到比较松散的聚类cluster。
(2)Complete Linkage:完全是SingleLinkage的反面极端,取两个集合距离最远的两个点的距离作为两个集合的距离,其效果也刚好相反,限制非常大。
两个聚类cluster即使已经很接近了,但是只要有不配合的带你存在,就顽固到底,老死不相合并,也是不太好的办法,这两种相似度定义方法共同问题就是:
只考虑了某个特有的数据,而没有考虑类数据整体的特点。
(3)Average Linkage:这种方法就是把两个集合中的点两两距离全部放在一起求平均值,相应的能得到一点合适的结果。
Average Linkage的一个变种就是取两两距离的中值,与取平均值相比更加能够解除个别偏离样本对结果的干扰。