Spectral Clustering

转载 2013年12月01日 22:47:39

http://blog.sciencenet.cn/blog-260809-509560.html

Spectral Clustering 

什么叫Spectral Algorithm? 
广义上来说,任何在演算法中用到SVD/特征值分解的,都叫Spectral Algorithm 从很老很老的PCA/LDA,到比较近的Spectral Embedding/Clustering,都属于这类。


一篇非常经典的教程 A Tutorial on Spectral Clustering.pdf

A_Tutorial_on_Spectral_Clustering.pdf

 

Spectral Clustering中文通常称为谱聚类。由于使用的矩阵的细微差别,谱聚类实际上可以说是一算法。

Spectral Clustering 和传统的聚类方法(例如 K-means)比起来有不少优点:

1)和 K-medoids 类似,Spectral Clustering 只需要数据之间的相似度矩阵就可以了,而不必像 K-means 那样要求数据必须是 N 维欧氏空间中的向量。

2)由于抓住了主要矛盾,忽略了次要的东西,因此比传统的聚类算法更加健壮一些,对于不规则的误差数据不是那么敏感,而且 performance 也要好一些。许多实验都证明了这一点。事实上,在各种现代聚类算法的比较中,K-means 通常都是作为 baseline 而存在的。 

3)计算复杂度比 K-means 要小,特别是在像文本数据或者平凡的图像数据这样维度非常高的数据上运行的时候。

Spectral Clustering 算法的全貌:

1)根据数据构造一个 Graph Graph 的每一个节点对应一个数据点,将相似的点连接起来,并且边的权重用于表示数据之间的相似度。把这个 Graph 用邻接矩阵的形式表示出来,记为 W 

2) 的每一列元素加起来得到个数,把它们放在对角线上(其他地方都是零),组成一个N*N的矩阵,记为。并令L = D - W 

3)求出L的前k个特征值(在本文中,除非特殊说明,否则k指按照特征值的大小从小到大的顺序)以及对应的特征向量。

4)把这k个特征(列)向量排列在一起组成一个N*k的矩阵,将其中每一行看作k维空间中的一个向量,并使用 K-means算法进行聚类。聚类的结果中每一行所属的类别就是原来 Graph 中的节点亦即最初的N个数据点分别所属的类别。

 


为什么要用SVD/特征值分解

其实并不是为用而用,而是不得不用。 目前在研究领域碰到的很多基础问题都是NP-hard的,找一个比较好的近似演算法要费很大的精力;就算找到多项式的近似方法,也会出现实际使用上仍然太慢/解陷入局部极小等问题。

比如说用K-means聚类,建模本身已经够简单了,但它是NP-hard的,用传统的EM迭代作近似解会陷入局部极小。

反之,SVD理论上只有唯一解,演算法速度相对又快,并且有大量理论结果及周边性质支持,可以算是一个很理想地能将NP-hard问题上去的模型; 它的另一个好处是,作为带约束二次规划的一种特殊情况,它对运算式为二次的目标函数的相容性比较好,所要求的数学技巧不高,任何人,任何方向都 能拿来试试。


Spectral Algorithm的几个方向
传统的如PCA/LDA用来做线性降维,2000年左右的一些Spectral EmbeddingSpectral Clustering,还有周边的一些,如Low-rank approximation等等。


为什么先做降维再做K-means,效果会更好呢? 
另外,有趣的是K-means可以用PCA来做近似解。 K-means是说找到K个点,使得所有点到这K个点的距离平方和最小; 
SVD是说找到一个子空间,使得所有点到这个子空间的距离平方和最小。 于是这两者就建立了联系,K-means便relaxSVD上去了。

Spectral Clustering/Embedding:

Spectral Clustering可算是Spectral Algorithm的重头戏。 
所谓Clustering,就是说聚类,把一堆东西(合理地)分成两份或者K份。 从数学上来说,聚类的问题就相当于Graph Partition的问题,即给定一个图G = (V, E),如何把它的顶点集划分为不相交的子集,使得这种划分最好。 其难点主要有两个:

1.这个合理其实相当难达到,随便设一个目标函数可能达不到希望的结果。 大家可以看了看[1] Ravi Kannan and Adrian Vetta, On clusterings: good, bad and spectral,这里详细地讨论了一下准则的选择问题。 
2.即使我们定义了一个相当好的聚类准则,如何优化它又是一个问题。

对于1,在Spectral Clustering这一块,各家有各家的想法。 主要有以下几种: 
a)大名鼎鼎的Normalized Cut[2],还有一些变种如Ratio Cut/Minmax cut. 
b)和代数图论紧密相联的Minimum conductance[1]. 
c)没有准则,但有证明的演算法[3] 
d)不基于图,而是reformulate原来的聚类方法,使之变成SVD能解的问题[4] 
2则完全被1的选取所决定。

Normalized Cut: 
在图上,定义什么样的聚类最好,最简单的方法是圈定K个不相交顶点集之后,希望顶点集之间的边,其权值的和最小。(边上的权值代表的是两头的顶点邻近的程度,或者说相似度)这就是所谓MinCut(最小割)问题。 二类分类的最小割不是NP-hard的,但是这不能让人感到开心,因为MinCut这个准则对于聚类不好。

具体来说,Mincut完全可能将离大部队过远的单个顶点与其他顶点分开,形成两类。 
事实上,我们不仅仅要让割边的权和最小,而且要让这K个顶点集都差不多大,这样才符合聚类给人的直观感觉。

于是在MinCut的基础上,出现了Normalized Cut.思路很简单,将Cut normalize一下,除以表现顶点集大小的某种量度(vol A =所有A中顶点集的度之和) 
也就是Normalize Cut(A, B) = Cut(A, B) / volA + cut(A, B) / volB 
然而这样一改,NP-hard就来了。 这几乎是所有组合优化问题的恶梦。

怎么办呢? 把组合优化问题连续化,即所谓减少约束,进行适当的relax 那么为什么会和SVD扯上的呢?

很简单,聚类是东西分成不相交集,也就是有正交的含义在里面;只是分东西必须是0-1式的,这种离散化,就是np-hard的原因。 我们把正交约束保留,但把离散变成连续的,聚类就变成了寻找(列)正交阵的优化问题,那正是SVD的火力所在!

就这样,通过这种巧妙的relaxNP-hard问题有了近似解。 且不说这近似解的质量如何,这种方法是相当令人振奋的。(关于Normalized Cut近似解的质量,似乎没有什么文章能够给出严格的证明,只是实际效果不错就是了。)

值得一提的是,Normalized Cut还和图上的Markov chain有紧密的关系[5] Normalized Cut这个量度,换成Markov chain的语言就是在图上随机游走,子集间相互串门的概率大小。 相当有趣。

举报

相关文章推荐

深度学习方法(六):神经网络weight参数怎么初始化

神经网络,或者深度学习算法的参数初始化是一个很重要的方面,传统的初始化方法从高斯分布中随机初始化参数。甚至直接全初始化为1或者0。这样的方法暴力直接,但是往往效果一般。本篇文章的叙述来源于一个国外的讨...

机器学习方法(七):Kmeans聚类K值如何选,以及数据重抽样方法Bootstrapping

本篇介绍了聚类如何选择K的一种方法(实际上,除了kmeans以外,还可以用于很多其他的聚类方法,如果他们也要确定k。)。该方法使用的Parametric bootstrap来抽样,是统计中bootst...

我是如何成为一名python大咖的?

人生苦短,都说必须python,那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..

Kmeans、Kmeans++和KNN算法比较

K-Means介绍        K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相...

谱聚类算法及其代码(Spectral Clustering)

简介 文章将介绍谱聚类(spectral clustering)的基本算法,以及在matlab下的代码实现。介绍内容将包括: 从图分割角度直观理解谱聚类谱聚类算法步骤数据以及实现代码 本文将不会涉及...

谱聚类算法(Spectral Clustering)

谱聚类算法(Spectral Clustering) 谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)