由上篇文章可知,合并或拆分层次聚类算法都是基于簇间相似度进行的,每个簇类包含了一个或多个样本点,通常用距离评价簇间或样本间的相似度,即距离越小相似度越高,距离越大相似度越低。因此我们首先假设样本间的距离为:dist(Pi,Pj),其中Pi,Pj为任意两个样本,下面介绍常用的簇间相似度计算方法:
(1)最小距离:也称为单链接算法(single linkage algorithm),含义为簇类C1和C2的距离由该两个簇的最近样本决定,数学表达式写为:
最小距离可用下图表示,其中红色线表示簇类C1和C2的距离。
优点:只要两个簇类的间隔不是很小,单链接算法可以很好的分离非椭圆形状的样本分布。
如下图的两个聚类例子,其中不同颜色表示不同的簇类: