谱聚类是一种基于图论的聚类方法
,它通过构建一个图来表示数据点之间的相似性
,然后利用图的拉普拉斯矩阵的谱特性
(即特征值和特征向量)来寻找数据的低维嵌入表示
,进而进行聚类。
谱聚类可以看作是将数据的划分问题转化为图的分割问题。
谱聚类的基本步骤:
- 构建相似性图:对于数据集中的每个点,计算它与其他点之间的
相似度,
形成一个邻接矩阵
。常见的相似度度量包括高斯核函数
或欧氏距离。
- 计算度矩阵:度矩阵 是一个
对角矩阵
,其中每个对角元素 等于第 个节点的度,即 中第 行或列的和。
- 构造拉普拉斯矩阵:
拉普拉斯矩阵
定义为 。有时也会使用归一化的拉普拉斯矩阵
,如 - 特征分解:计算拉普拉斯矩阵的
特征值和特征向量
。选择 个最小的非零特征值对应的特征向量`组成矩阵 - 聚类:对 矩阵的
每一行
(即每个数据点在低维空间的表示)应用标准聚类算法(如
涉及的公式及其解释:
- 邻接矩阵 : 表示节点 和节点 之间的边的权重,
权重越大,表示两个节点越相似。
- 度矩阵 : 是一个
对角矩阵
,其中 ,即节点 - 拉普拉斯矩阵 : ,
- 归一化拉普拉斯矩阵 : ,其中 是单位矩阵, 是对角矩阵
- 特征分解: ,其中 是
特征向量,
是特征值
。 - 聚类:应用 -means算法于 矩阵的行向量 ,其中 是数据点的数量, 是包含 个
最小非零特征值对应的特征向量的矩阵。
字符解释:
- :特征值,反映了矩阵
谱聚类通过上述步骤,可以有效地处理非凸形状的聚类问题,同时也能够捕捉到数据的内在几何结构。