SL是single linkage的缩写。SLC算法属于层次聚类的一种。
假设有N个实例,需要得到K个类。
算法:
- 初始化:每个实例自成一类
- 计算类间距离:类间距离定义为两类中最近的两点之间的距离
- 合并最近的两个类
- 重复计算及合并N-K次,得到K个类
优点:
SLC算法是确定性的,每次得到的结果都是一样的;
如果把实例看做空间中的点,距离为点之间的边长,那么SLC算法其实就是最小生成树算法;
可以把SLC算法的融合过程表示成一个树,这个树非常漂亮,因为有几个根就有几个类;而且可以随意更改根数。
缺点: