专栏介绍:本栏目为 “2021秋季中国科学院大学周晓飞老师的机器学习” 课程记录,不仅仅是课程笔记噢~ 如果感兴趣的话,就和我一起入门Machine Learning吧🥰
基本思想
层次聚类策略
- 类簇之间(依据相似性)不断合并或者不断分化,直到满足聚类停止条件。
分类
- 自底向上/归并算法
- 自顶向下/分化算法
参考:https://www.bilibili.com/video/BV1Az4y1f78d?from=search&seid=4445699556387466708&spm_id_from=333.337.0.0
注:下文我们讨论的是自底向上的归并过程。
步骤
- 假设算法开始时有n个结点(n是样本容量)
- 合并两个最相似的结点(similar/disdence),similar有很多算法,disdance只是其中一种
- 计算由多个数据点组成的clusters之间的方法
-
single link:找到两组中最近的两个点连起来,这个距离就是他们的新disdance
-
complete link : 找到两组中最远的两个点连起来,这个距离就是他们的新distance
-
还有其他的link方式
-
- 不停地重复第二步直到达到想要的簇的数量。
例子
这里我们只以 single link 作为例子来讨论。
样本点之间的距离如下图所示,AC之间的距离是6.29,是所有距离中最小的,从此处开始聚类。
- 计算各个点到A点的距离,其中C点到A点最近,将AC合并为一个组
- 分别计算A点和C点到其他点的距离,发现是C到其他点的距离最短。
- 将C点到其他点的距离,设定为AC组到其他点的距离。同时观察除去AC之外其他点两两之间的距离,此时B点到AC组是最短距离,因此将B点也归入AC组。
- 接下来重复第二个步骤,判断得到ABC三个点,B才是距离其他点更近的点。
- 将用B到其他点的距离,设定为ABC组到其他点的距离。同时观察除去ABC之外其他点两两之间的距离,发现此时D到ABC组是最短距离,因此将D点也归入ABC组。
- 继续重复,直到把最后一个点也归入。
- 按照归并的顺序,我们可以构造处一棵树。
其他例题可以看这个博客:【一起入门MachineLearning】中科院机器学习-期末题库-【计算题14+多选题10】