该教程记录了我从一个聚类算法小白学习谱聚类算法的过程,在开始学习之前,请确保你了解下面的知识:
- 线性代数矩阵的相关性质
- 导数的相关知识
- 欧式距离
- 图的基本知识
如果你学过上面的知识但是忘记了也没关系,在后面使用该知识点的过程中会简要讲解一下,你只要确保你看完了能回忆起来就好。
1. 什么聚类算法?
聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,是无监督学习1的一种。说白点,就是给一群点,然后叫你把相似的点分为同一类。下图就是一个简单的例子,被分为同一类的数据点用同一种颜色被标识出来。
2. 谱聚类算法
常用的聚类方法有很多,比如说k-means算法,基于密度聚类算法,基于网格聚类算法,谱聚类算法等,本教程将介绍谱聚类算法。传统的聚类方法,如k-means算法,基于密度聚类算法,基于网格聚类算法等,在对凸形样本聚类效果较好,但是对于任意形状的聚类算法精度不高;而谱聚类算法,不仅能够在任意样本空间进行聚类,而且能够收敛于全局最优,很好地解决了非块状和非凸数据的聚类问题。
等等,非块状和非凸数据
是什么意思&#