这篇论文介绍了谱聚类方法,即利用相似矩阵的光谱(特征值)来对数据降维。
【论文链接】ON spectral clustering:analysis and an algorithm,Andrew Y.Ng .et al,
总结下谱聚类算法的优点:
1)谱聚类只需要数据之间的相似度矩阵,因此处理稀疏数据的聚类很有效;传统聚类算法比如K-Means很难做到z这点。
2)由于使用了降维,因此在处理高维数据聚类时的复杂度比传统聚类算法好。
谱聚类算法的主要缺点有:
1)如果最终聚类的维度非常高,则由于降维的幅度不够,谱聚类的运行速度和最后的聚类效果均不好。
2) 聚类效果依赖于相似矩阵,不同的相似矩阵得到的最终聚类效果可能很不同。
谱聚类可以与谱图分区相联系,在谱图分区中,常用一个图的拉普拉斯矩阵的第二个特征向量来定义一个半最优分割(semi-optimal cut),可以证明这个分割保证了一个最优切割的近似。若将此方法运用到聚类,可以通过建立一个带权图,其图中节点对应数据点,而边与点之间的距离有关。关于谱图分区的的大多数分析都将图分成两部分,并递归运用这种方法直到找到K个簇。实证表明,同时用多个特征向量并直接计算一个k way 分区会更好。本文的创新之处在于同时使用k个特征向量的方法并给出了算法预期效果好的理论条件。
谱聚类算法描述如下
由于在步骤5中使用了K-均值,而不直接对原始数据使用k-均值是因为的自然聚簇不对应凸区域,使得k-均值的聚类效果不理想。一旦将原始数据点映射到
,它们形成紧凑的聚簇。
谱聚类的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。一般来说,我们可以通过样本点距离度量的相似矩阵来获得邻接矩阵。
构建邻接矩阵WW的方法有三类 : ϵ-邻近法,K邻近法和全连接法。
[参考]
【1】谱聚类原理
【2】谱聚类
【3】谱聚类及其实现详解