谱聚类来源
聚类的定义:
聚类(Clustering)就是将数据对象分组成为多个类或簇(Cluster),使得在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
传统的聚类算法:
如K-means算法、EM算法等都是建立在凸球形的样本空间上,但当样本空间不为凸时,算法会陷入局部最优。
谱聚类算法:
谱聚类算法(Spectral Clustering Algorithm)建立在谱图理论基础上,其本质是将聚类问题转化为图的最优划分问题,是一种点对聚类算法,对数据聚类具有很好的应用前景。与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。谱聚类算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并计算矩阵的特征值和特征向量,然后选择合适的特征向量聚类不同的数据点。谱聚类算法最初用于计算机视觉、VLSI设计等领域,2005年左右才开始用于机器学习中。
理论基础
谱聚类算法的思想来源于谱图划分理论。假定将每个数据样本看作图中的顶点V,根据样本间的相似度将顶点间的边E赋权重值W,这样就得到一个基于样本相似度的无向加权图G=(V,E)。那么在图G中,就可将聚类问题转化为在图G上的图划分问题。
相似矩阵、度矩阵及Laplacian矩阵:
求图划分准则的最优解是一个NP难问题。一个很好的求解方法是考虑问题的连续放松形式,这样便可将原问题转换成求解相似矩阵或Laplacian矩阵的谱分解,因此将这类方法统称为谱聚类,可以认为谱聚类是对图划分准则的逼近。相似矩阵通常用W或A表示,有时也称为亲合矩阵(Affinity Matrix)。该矩阵的定义为:
其中