谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。
该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的
特征值和
特征向量 , 然后选择合适 的特征向量聚类不同的数据点。谱聚类算法最初用于
计算机视觉 、VLS I 设计等领域, 最近才开始用于机器学习中,并迅速成为国际上机器学习领域的研究热点。
一、算法步骤编辑
谱聚类算法将数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作为相应顶点连接边E的
权值,这样就得到一个基于相似度的无向
加权图G(V, E),于是聚类问题就可以转化为图的划分问题。基于
图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。
虽然根据不同的准则函数及谱
映射方法,谱聚类算法有着不同的具体实现方法,但是这些实现方法都可以归纳为下面三个主要步骤:
1) 构建表示对象集的相似度矩阵W;
2) 通过计算相似度矩阵或拉普拉斯矩阵的前k个特征值与
特征向量,构建特征向量空间;
上面的步骤只是谱聚类算法的一个总体框架,由于划分准则、相似度矩阵计算方法等因素的差别,具体的算法实现同样会有所差别,但其本质依然是图划分问题的连续放松形式。
2二、划分准则编辑
谱聚类算法将聚类问题就可以转化为图的划分问题之后,基于
图论的划分准则的优劣直接影响到聚类结果的好坏。常见的划分准则有Mini cut,Average cut,Normalized cut,Min-max cut,Ratio cut,MNcut等。