从图说起
这里面,最简单的一个概念就是“图”(Graph),它用于表示事物之间的相互联系。每个图有一批节点(Node),每个节点表示一个对象,通过一些边(Edge)把这些点连在一起,表示它们之间的关系。就这么一个简单的概念,它对学术发展的意义可以说是无可估量的。几乎所有领域研究的东西,都是存在相互联系的,通过图,这些联系都具有了一个统一,灵活,而又强大的数学抽象。因此,很多领域的学者都对图有着深入探讨,而且某个领域关于图的研究成果,可以被其它领域借鉴。
矩阵表示:让代数进入图的世界
在数学上,一种被普遍使用的表达就是邻接矩阵(AdjacencyMatrix)。一个有N个节点的图,可以用一个Nx N的矩阵G表示,G(i,j)用一个值表示第i个节点和第j个节点的联系,通常来说这个值越大它们关系越密切,这个值为0表示它们不存在直接联系。这个表达,很直接,但是非常重要,因为它把数学上两个非常根本的概念联系在一起:“图”(Graph)和“矩阵”(Matrix)。矩阵是代数学中最重要的概念,给了图一个矩阵表达,就建立了用代数方法研究图的途径。数学家们几十年前开始就看到了这一点,并且开创了数学上一个重要的分支——代数图论(AlgebraicGraph Theory)。
代数图论通过图的矩阵表达来研究图。熟悉线性代数的朋友知道,代数中一个很重要的概念叫做“谱”(Spectrum)。一个矩阵的很多特性和它的谱结构——就是它的特征值和特征向量是密切相关的。因此,当我们获得一个图的矩阵表达之后,就可以通过研究这个矩阵的谱结构来研究图的特性。通常,我们会分析一个图的邻接矩阵(AdjacencyMatrix)或者拉普拉斯矩阵(LaplaceMatrix)的谱——这里多说一句,这两种矩阵的谱结构刚好是对称的。
谱:“分而治之”的代数
谱,这个词汇似乎在不少地方出现过,比如我们可能更多听说的频谱,光谱,等等。究竟什么叫“谱”呢?它的概念其实并不神秘,简单地说,谱这个概念来自“分而治之”的策略。一个复杂的东西不好直接研究,就把它分解成简单的分量。如果我们把一个东西看成是一些分量叠加而成,那么这些分量以及它们各自所占的比例,就叫这个东西的谱。所谓频谱,就是把一个信号分解成多个频率单一的分量。
矩阵的谱,就是它的特征值和特征向量,普通的线性代数课本会告诉你定义:如果Av = c v,那么c
这里再稍微延伸一点。一个向量可以看成一个关于整数的函数,就是输入i,它返回v(i )。它可以延伸为一个连续函数(一个长度无限不可数的向量,呵呵),相应的矩阵
马尔可夫过程——从时间的角度理解图
回到“图”这个题目,那么图的谱是干什么的呢?按照上面的理解,似乎是拿来分解一个图的。这里谱的作用还是分治,但是,不是直观的理解为把图的大卸八块,而是把要把在图上运行的过程分解成简单的过程的叠加。如果一个图上每个节点都有一个值,那么在图上运行的过程就是对这些值进行更新的过程。一个简单,大家经常使用的过程,就是马尔可夫过程(MarkovProcess)。
学过随机过程的朋友都了解马尔可夫过程。概念很简单——“将来只由现在决定,和过去无关”。考虑一个图,图上每个点有一个值,会被不断更新。每个点通过一些边连接到其它一些点上,对于每个点,这些边的值都是正的,和为1。在图上每次更新一个点的值,就是对和它相连接的点的值加权平均。如果图是联通并且非周期(数学上叫各态历经性,ergodicity),那么这个过程最后会收敛到一个唯一稳定的状态(平衡状态)。
图上的马尔可夫更新过程,对于很多学科有着非常重要的意义。这种数学抽象,可以用在什么地方呢?(1)Google对搜索结果的评估(PageRank)原理上依赖于这个核心过程,(2)
图和谱在此联姻
根据上面的定义,我们看到邻接矩阵A其实就是这个马尔可夫过程的转移概率矩阵。我们把各个节点的值放在一起可以得到一个向量v,那么我们就可以获得对这个过程的代数表示,
一般情况下,我们开始于一个任意一个状态u,它的更新过程就没那么简单了。我们用谱的方法来分析,把u分解成
从上面的分析看到,这个过程的收敛速度,其实是和衰减得最慢的那个非平衡分量是密切相关的,它的衰减速度取决于第二大特征值c2,c2的大小越接近于1,收敛越慢,越接近于0,收敛越快。这里,我们看到了谱的意义。第一,它帮助把一个图上运行的马尔可夫过程分解为多个简单的字过程的叠加,这里面包含一个平衡过程和多个指数衰减的非平衡过程。第二,它指出平衡状态是对应于最大特征值1的分量,而收敛速度主要取决于第二大特征值。
我们这里知道了第二大特征值c2对于描述这个过程是个至关重要的量,究竟是越大越好,还是越小越好呢?这要看具体解决的问题。如果你要设计一个采样过程或者更新过程,那么就要追求一个小的c2,它一方面提高过程的效率,另外一方面,使得图的结构改变的时候,能及时收敛,从而保证过程的稳定。而对于网络而言,小的c2有利于信息的迅速扩散和传播。
聚类结构——从空间的角度理解图
c2的大小往往取决于图上的聚类结构。如果图上的点分成几组,各自聚成一团,缺乏组与组之间的联系,那么这种结构是很不利于扩散的。在某些情况下,甚至需要O(exp(N))的时间才能收敛。这也符合我们的直观想象,好比两个大水缸,它们中间的只有一根很细的水管相连,那么就需要好长时间才能达到平衡。有兴趣的朋友可以就这个水缸问题推导一下,这个水缸系统的第二大特征值和水管流量与水缸的容积的比例直接相关,随比例增大而下降。
对于这个现象进行推广,数学上有一个重要的模型叫导率模型(Conductance)。具体的公式不说了,大体思想是,节点集之间的导通量和节点集大小的平均比例和第二大特征值之间存在一个单调的上下界关系。导率描述的是图上的节点连接的空间结合,这个模型把第二特征值c2和图的空间聚集结构联系在一起了。
图上的聚类结构越明显,
归纳起来
·图是表达事物关系和传递扩散过程的重要数学抽象
·图的矩阵表达提供了使用代数方法研究图的途径
·谱,作为一种重要的代数方法,其意义在于对复杂对象和过程进行分解
·图上的马尔可夫更新过程是很多实际过程的一个重要抽象
·图的谱结构的重要意义在于通过它对马尔可夫更新过程进行分解分析
·图的第一特征值对应于马尔可夫过程的平衡状态,第二特征值刻画了这个过程的收敛速度(采样的效率,扩散和传播速度,网络的稳定程度)。
·图的第二特征分量与节点的聚类结构密切相关。可以通过谱结构来分析图的聚类结构。
马尔可夫过程代表了一种时间结构,聚类结构代表了一种空间结构,“谱”把它们联系在一起了,在数学刻画了这种时与空的深刻关系。
MarkovChain在数学上确实可以视为LinearDynamic System的一个特例,LinearDynamic System的很多观点其实是可以用于分析Markovprocess的。
Linear System是一个非常博大的领域,从这个角度去看待Markovprocess是一个很好的角度。LinearSystem关注特征方程的根,并且有很多工作描述了特征根和动态特性的关系。而Markov的第一,第二特征值问题其实是这个大问题的一个重要特例。
把Linearcontrol system的设计思想用于设计MarkovChain Monte Carlo,对采样过程施加反馈式的动态控制,应该是在实用中有重要价值的思路。下次见到AlanWillsky的时候,我可以和他交流一下这个问题的看法。
从另外一个角度说,Markov过程本身有一些重要的特点,使得它值得作为一个专门的topic,独立于LinearSystem进行研究。转移概率矩阵(或者转移算子)的谱半径(Spectralradius)为1,并且是自伴的(Self-adjoint),这决定了它的全部特征根都是实数,而且都在[-1,1]之间。相比于很多其它领域的线性系统,这是非常特殊的。
对于Vision还有一些AI领域来说,它的Markov过程还有着一些难点:multi-mode& highly peaked.