入门: “A tutorial on spectral clustering” 辅助阅读+问题+总结

“A tutorial on spectral clustering”谱聚类教程

摘要 Abstract

近年来,谱聚类已成为最流行的现代聚类算法之一。它实现简单,可以通过标准线性代数软件有效求解,并且通常优于传统的聚类算法(例如 k-means 算法)。乍一看,谱聚类似乎有点神秘,而且很难看出它为什么起作用以及它到底做了什么。本教程的目标是对这些问题提供一些直观的了解。我们描述了不同的图拉普拉斯算子及其基本属性,提出了最常见的谱聚类算法,并通过几种不同的方法从头开始推导这些算法。讨论了不同谱聚类算法的优点和缺点。

关键词Keywords:

Spectral clustering · Graph Laplacian 谱聚类·图拉普拉斯算子

1 Introduction 简介

聚类是探索性数据分析中使用最广泛的技术之一,应用范围从统计学、计算机科学、生物学到社会科学或心理学。几乎在每个处理经验数据的科学领域,人们都试图通过识别数据中的“相似行为”组来获得对数据的第一印象。在本文中,我们将向读者介绍谱聚类算法系列。与 k-means 或single linkage等“传统算法”相比,谱聚类具有许多基本优势。通过谱聚类获得的结果通常优于传统方法,谱聚类实现起来非常简单,并且可以通过标准线性代数方法有效地求解。

本教程是对谱聚类的独立介绍。我们从头开始推导出谱聚类,并对谱聚类为何有效提出了不同的观点。除了基本的线性代数之外,读者不需要特殊的数学背景。然而,我们并不试图对谱聚类的整个文献进行简明的回顾,由于关于这个主题的文献数量巨大,这是不可能的。前两节致力于逐步介绍谱聚类所使用的数学对象:第二节中的相似图,Sect 3.中的Laplace算子,谱聚类算法本身在第 34节中介绍。 4. 接下来的三节将专门解释这些算法为何有效。每个部分对应一个解释:第 5 节描述了图划分方法。 6 随机游走视角,以及Sect.7 微扰理论方法。在第8节中,我们研究了与谱聚类相关的一些实际问题,并在sect.9.讨论了与谱聚类相关的各种扩展和文献。

2 Similarity graphs相似度图

给定一组数据点 x1,...,xn 以及所有数据点 xi 和 xj 之间相似性 sij ≥ 0 的一些概念,聚类的直观目标是将数据点分为几组,使得同一组中的点相似,不同组中的点彼此不同。如果我们没有比数据点之间的相似性更多的信息,则表示数据的一种好方法是相似性图 G = (V , E) 的形式。该图中的每个顶点 vi 代表一个数据点 xi 。如果对应数据点 xi 和 xj 之间的相似度 sij 为正或大于某个阈值,则两个顶点被连接,并且边由 sij 加权。

现在可以使用相似图重新表述聚类问题:我们希望找到图的划分,使得不同组之间的边具有非常低的权重(这意味着不同簇中的点彼此不相似)并且边组内的点具有较高的权重(这意味着同一簇内的点彼此相似)。为了能够形式化这种直觉,我们首先要介绍一些基本的图形符号,并简要讨论我们要研究的图形类型。

2.1 Graph notation 图形表示法

令 G = (V , E) 为顶点集 V = {v1,...,vn} 的无向图。下面我们假设图 G 是带权的,即两个顶点 vi 和 vj 之间的每条边都带有非负权重 wij ≥ 0。图的带权邻接矩阵为矩阵 W = (wij )i,j =1,...,n。如果 wij = 0,这意味着顶点 vi 和 vj 没有通过边连接。由于 G 是无向的,我们需要 wij = wji。顶点 vi ∈ V 的度定义为

请注意,事实上,这个总和仅适用于与 vi 相邻的顶点,对于所有其他顶点 vj ,权重 wij 为 0。度矩阵 D 被定义为度数 d1,...,dn 为对角线的的对角矩阵。给定顶点子集 A ⊂ V ,我们用 ̄ A 表示其补集 V \ A。我们将指示向量 1A = (f1,...,fn)′ ∈ Rn 定义为具有条目 fi = 1 if vi ∈ A 的向量,否则 fi = 0。为了方便起见,我们为索引集 {i|vi ∈ A} 引入简写符号 i ∈ A,特别是在处理像 Σ i∈A wij 这样的和时。对于两个不一定不相交的集合 A, B ⊂ V,我们定义

我们考虑两种不同的方法来测量子集 A ⊂ V 的“大小”:

|A|:=A中的顶点数,

vol(A) := Σ i∈A di

直观地看,|A|通过顶点数量来测量 A 的大小,而 vol(A) 通过对连接到 A 中顶点的所有边的权重求和来测量 A 的大小。图的子集 A ⊂ V 是连通的如果 A 中的任意两个顶点可以通过一条路径连接,所有中间点也位于 A 中。如果子集 A 是连通的并且 A 和 ̄ A 中的顶点之间没有连接,则子集 A 称为连通分量。非空集合 A1,....,Ak形成图的划分,如果 Ai ∩ Aj =∅且 A1 ∪···∪Ak = V 。

2.2 Different similarity graphs 不同的相似度图

有几种流行的结构可以将给定的具有成对相似度 sij 或成对距离 dij 的数据点集 x1,...,xn 转换为图。构建相似图时,目标是对数据点之间的局部邻域关系进行建模。

The ε-neighborhood graph ε-邻域图  这里我们连接所有成对距离小于 ε 的点。由于所有连接点之间的距离大致相同(最多 ε),对边进行加权不会将有关数据的更多信息合并到图中。因此,ε邻域图通常被认为是未加权图。

k-nearest neighbor graphs k-近邻图 这里的目标是,如果 vj 是 vi 的 k-近邻之一,则将顶点 vi 与顶点 vj 连接起来。然而,这个定义导致有向图,因为邻域关系不是对称的。有两种方法可以使该图成为无向图。第一种方法是简单地忽略边的方向,即如果 vi 位于 vj 的 k 个近邻中,或者 vj 位于 vi 的 k 个近邻中,则我们用无向边连接 vi 和 vj 。生成的图通常称为 k 最近邻图“the k-nearest neighbor graph.” 。第二种选择是连接顶点 vi 和 vj,如果 vi 位于 vj 的 k-近邻之中并且 vj 位于 vi 的 k-近邻之中。所得图称为互 k-近邻图“the mutual k-nearest neighbor graph” 。在这两种情况下,在连接适当的顶点之后,我们通过端点的相似性对边进行加权。

The fully connected graph 全连接图 在这里,我们简单地将所有具有正相似性的点连接起来,并通过 sij 对所有边进行加权。由于该图应该表示局部邻域关系,因此只有当相似性函数本身对局部邻域进行建模时,这种构造才有用。这种相似性函数的一个例子是高斯相似性函数 s(xi,xj ) = exp(−‖xi − xj ‖2/(2σ 2)),其中参数 σ 控制邻域的宽度。该参数与 ε 邻域图中的参数 ε 起着类似的作用。

上述所有图都经常用于谱聚类。据我们所知,关于相似图的选择如何影响谱聚类结果的问题尚不存在理论结果。对于不同图的行为的讨论,我们参考 Sect. 8.

3 Graph Laplacians and their basic properties图拉普拉斯算子及其基本性质

谱聚类的主要工具是图拉普拉斯矩阵。有一个专门研究这些矩阵的领域,称为谱图论(例如,参见 Chung 1997)。在本节中,我们要定义不同的图拉普拉斯算子并指出它们最重要的属性。我们将仔细区分图拉普拉斯算子的不同变体。请注意,在文献中没有唯一的约定将哪个矩阵准确地称为“图拉普拉斯”。通常,每个作者都将“他的”矩阵称为图拉普拉斯矩阵。因此,在阅读有关图拉普拉斯算子的文献时需要非常小心。

在下文中,我们始终假设 G 是一个无向加权图,具有权重矩阵 W ,其中 wij = wji ≥ 0。当使用矩阵的特征向量时,我们不一定假设它们是标准化的。例如,常数向量 1 和它的倍数a1 (某些 a ≠ 0) 将被视为相同的特征向量。特征值将始终按顺序递增,尊重多重性。 “前 k 个特征向量”是指 k 个最小特征值对应的特征向量。

3.1 The unnormalized graph Laplacian 非归一化图拉普拉斯算子

非归一化图拉普拉斯矩阵定义为 L = D − W。

Mohar (1991, 1997) 对其许多特性进行了概述。以下命题总结了谱聚类所需的最重要的事实。

命题1(L的性质) 矩阵L满足以下性质:

(1) 对于每个向量 f ∈ Rn 我们有

(2) L 是对称且半正定的。

(3) L 的最小特征值为0,对应的特征向量为常数一向量1。

(4) L 有n 个非负实值特征值0 = λ1 ≤ λ2 ≤…≤λn。

证明:部分 (1) 根据 di 的定义,

第 (2) 部分 L 的对称性直接由 W 和 D 的对称性得出。正半定性是第 (1) 部分的直接结果,它表明对于所有 f ∈ Rn,f ′Lf ≥ 0。

第(3)部分显而易见。第 (4) 部分是第 (1)-(3) 部分的直接结果。

请注意,非归一化图拉普拉斯算子不依赖于邻接矩阵 W 的对角元素。每个在所有非对角位置上与 W 重合的邻接矩阵都会导致相同的非归一化图拉普拉斯 L。特别是,图中的自边不会改变相应的图拉普拉斯。

非归一化图拉普拉斯及其特征值和特征向量可用于描述图的许多属性,参见 Mohar (1991, 1997)。对于谱聚类很重要的一个示例如下:

命题 2(连通分量的数量和 L 的谱) 设 G 是具有非负权重的无向图。那么 L 的特征值 0 的重数 k 等于图中连通分量 A1,...,Ak 的数量。特征值 0 的特征空间由这些分量的指示向量 1A1 ,...,1Ak 组成。

证明:我们从 k = 1 的情况开始,即图是连通的。假设f是一个特征向量,特征值为0,那么我们知道

由于权重 wij 是非负的,因此只有当所有项 wij (fi − fj )2 消失时,该和才会消失。因此,如果两个顶点 vi 和 vj 连接(即 wij > 0),则 fi 需要等于 fj 。通过这个参数,我们可以看到,对于图中可以通过路径连接的所有顶点,f 需要保持不变。此外,由于无向图中连通分量的所有顶点都可以通过路径连接,因此f需要在整个连通分量上保持恒定。因此,在仅由一个连通分量组成的图中,我们只有常数一个向量 1 作为特征向量,特征值为 0,这显然是连通分量的指示向量。

现在考虑 k 个连通分量的情况。不失一般性,我们假设顶点根据它们所属的连接组件进行排序。在这种情况下,邻接矩阵 W 具有块对角形式,矩阵 L 也是如此:

注意,每个块Li本身就是一个真图拉普拉斯算子,即对应于第i个连通分量的子图的拉普拉斯算子。与所有块对角矩阵的情况一样,我们知道 L 的谱由 Li 谱的并集给出,L 对应的特征向量是 Li 的特征向量,在另一个位置填充 0块。由于每个 Li 都是连通图的图拉普拉斯算子,因此我们知道每个 Li 的特征值为 0,重数为 1,对应的特征向量是第 i 个连通分量上的常数 1 向量。因此,矩阵 L 的特征值 0 与连通分量的个数相同,对应的特征向量就是连通分量的指示向量。

3.2 The normalized graph Laplacians 归一化图拉普拉斯算子

文献中有两个矩阵被称为归一化图拉普拉斯矩阵。两个矩阵彼此密切相关,定义为

我们用 Lsym 表示第一个矩阵,因为它是对称矩阵,用 Lrw 表示第二个矩阵,因为它与随机游走密切相关。下面我们总结了 Lsym 和 Lrw 的几个属性,这些属性可以在归一化图拉普拉斯算子的标准参考文献 Chung (1997) 的第一页上找到。

命题 3(Lsym 和 Lrw 的性质) 归一化拉普拉斯算子满足以下性质: (1) 对于每个 f ∈ Rn 我们有

(2) λ 是Lrw 的特征值,对应的特征向量为 u 当且仅当 λ 是Lsym 的特征值,对应的特征向量 w = D1/2u 。

(3) 当且仅当 λ 和 u 是广义特征问题 Lu = λDu的解时,λ 是Lsym 的特征值,对应的特征向量 w = D1/2u 。

(4) 0 是Lrw 的特征值,对应的特征向量为 常数向量1 当且仅当 0 是Lsym 的特征值,对应的特征向量 w = D1/21

(5) Lsym 和Lrw 是正半定的,并且有n 个非负实值特征值0 = λ1 ≤···≤λn。

证明:(1)部分可以与命题1的(1)部分类似地证明。

(2)通过将特征值方程Lsym w = λw两边同时左乘D−1/2并代入u = D−1/2w,可以立即看出。

(3) 部分直接将特征值方程 Lrw u = λu 两边同时左乘D。

(4) 第一条语句很明显,Lrw1 = 0,第二条语句由(2)得出。

(5)部分关于Lsym的陈述来自(1),然后关于Lrw的陈述来自(2)。

与非归一化图拉普拉斯的情况一样,归一化图拉普拉斯的特征值 0 的重数与连通分量的数量有关:

命题 4(Lsym 和 Lrw 的连通分量数和谱) 设 G 为具有非负权重的无向图。那么 Lrw 和 Lsym 的特征值 0 的重数 k 等于图中连通分量 A1,...,Ak 的数量。对于 Lrw,0 的特征空间由这些分量的指示向量 1Ai 张成。对于 Lsym,0 的特征空间由向量 D1/21Ai 张成。

证明: 该证明类似于命题 2 的证明,使用命题 3。

4 Spectral clustering algorithms谱聚类算法

现在我们想介绍最常见的谱聚类算法。对于谱聚类的参考和历史,我们参考Sect. 9。我们假设我们的数据由 n 个“点”x1,...,xn 组成,它们可以是任意对象。我们通过一些对称且非负的相似性函数来测量它们的成对相似性 sij = s(xi,xj),并用 S = (sij)i,j=1,...,n 表示相应的相似性矩阵。

Unnormalized spectral clustering 非归一化谱聚类

输入:相似度矩阵 S ∈ Rn×n,要构造的簇数 k。

• 通过第 2 节中描述的方法之一构建相似性图。设W为其加权邻接矩阵。

• 计算非归一化拉普拉斯L = D - W。    

• 计算L 的前k 个特征向量u1,...,uk。

• 令U ∈ Rn×k 为包含向量u1,...,uk 作为列的矩阵。

• 对于 i = 1,...,n,令 yi ∈ Rk 为对应于 U 的第 i 行的向量。

• 将 Rk 中的点 (yi )i=1,...,n 与 k 聚类-表示算法分为簇 C1,...,Ck。

输出:聚类 A1,...,Ak,其中 Ai ={j |yj ∈ Ci }。

归一化谱聚类有两种不同版本,具体取决于使用哪种归一化图拉普拉斯算子。我们在两篇热门论文之后描述了这两种算法,有关更多参考资料和历史,请参阅第 9 节。

“Normalized spectral clustering according to Shi and Malik (2000)”根据 Shi 和 Malik (2000) 的归一化谱聚类

输入:相似度矩阵 S ∈ Rn×n,要构造的簇数 k。

• 通过第2节中描述的方法之一构建相似性图。设W为其加权邻接矩阵。

• 计算非归一化拉普拉斯L。  

• 计算广义特征问题Lu = λDu 的前k 个广义特征向量u1,...,uk。

• 令U ∈ Rn×k 为包含向量u1,...,uk 作为列的矩阵。

• 对于 i = 1,...,n,令 yi ∈ Rk 为对应于 U 的第 i 行的向量。

• 将 Rk 中的点 (yi )i=1,...,n 与 k 聚类-表示算法分为簇 C1,...,Ck。

输出:聚类 A1,...,Ak,其中 Ai ={j |yj ∈ Ci }。

请注意,该算法使用 L 的广义特征向量,根据命题 3,其对应于矩阵 Lrw 的特征向量。因此,事实上,该算法使用归一化拉普拉斯 Lrw 的特征向量,因此称为归一化谱聚类。下一个算法也使用归一化拉普拉斯算子,但这次使用矩阵 Lsym 而不是 Lrw。正如我们将看到的,该算法需要引入其他算法不需要的额外行归一化步骤。原因将在Sect.7中揭晓。

“Normalized spectral clustering according to Ng et al. (2002)” 根据 Ng 等人的归一化谱聚类。 (2002)

输入:相似度矩阵 S ∈ Rn×n,要构造的簇数 k。

• 通过第2节中描述的方法之一构建相似性图。设W为其加权邻接矩阵。

• 计算归一化拉普拉斯Lsym。

• 计算Lsym 的前k 个特征向量u1,...,uk。

• 令U ∈ Rn×k 为包含向量u1,...,uk 作为列的矩阵。

• 通过将行标准化为范数1,从U 形成矩阵T ∈ Rn×k,即设置tij = uij /(Σk uik2)1/2 。

• 对于i = 1,...,n,令yi ∈ Rk 为对应于T 的第i 行的向量。

• 使用kmeans 算法将点(yi )i=1,...,n 聚类为聚类C1,...,Ck。

输出:聚类 A1,...,Ak,其中 Ai ={j |yj ∈ Ci }。

除了使用三种不同的图拉普拉斯算子这一事实之外,上述所有三种算法看起来都非常相似。在所有三种算法中,主要技巧是将抽象数据点 xi 的表示更改为点 yi ∈ Rk。由于图拉普拉斯算子的属性,这种表示形式的变化是有用的。我们将在下一节中看到,这种表示形式的变化增强了数据中的簇属性,以便可以在新的表示形式中轻松检测到簇。特别是,简单的 k均值聚类算法可以毫无困难地检测这种新表示形式中的聚类。不熟悉 k 均值的读者可以在许多教科书中阅读该算法,例如 Hastie 等人的著作(2001) 。

在深入研究谱聚类理论之前,我们想通过一个非常简单的示例来说明其原理。该示例将在本教程的多个地方使用,我们选择它是因为它非常简单,可以轻松绘制相关数量。

该玩具数据集由根据四个高斯混合绘制的 200 个点 x1,...,x200 ∈ R 的随机样本组成。图 1 的第一行显示了从此分布中抽取的样本的直方图(x 轴表示一维数据空间)。作为该数据集上的相似函数,我们选择高斯相似函数 s(xi,xj ) = exp(−|xi − xj |2/(2σ 2)),其中 σ = 1。作为相似图,我们考虑全连接图和 10 个最近邻图。在图 1 中,我们显示了非归一化拉普拉斯 L 和归一化拉普拉斯 Lrw 的第一个特征值和特征向量。也就是说,在特征值图中,我们绘制 i 与 λi 的关系(暂时忽略虚线和图中非归一化情况下特征值的不同形状;它们的含义将在第 8.5 节中讨论)。在特征向量 u = (u1,...,u200)′ 的特征向量图中,我们绘制 xi 与 ui 的关系(请注意,在示例中选择的 xi 只是一个实数,因此我们可以在 x 轴上描绘它) 。图 1 的前两行显示了基于 10 个最近邻图的结果。我们可以看到前四个特征值都是0,对应的特征向量是聚类指示向量。原因是簇在 10 个最近邻图中形成不连续的部分,在这种情况下,特征向量如命题 2 和 4 中给出。接下来的两行显示全连接图的结果。由于高斯相似函数始终为正,因此该图仅由一个连通分量组成。因此,特征值 0 的重数为 1,第一个特征向量是常数向量。以下特征向量携带有关簇的信息。例如,在非归一化情况(最后一行)中,如果我们将第二个特征向量阈值设置为 0,则低于 0 的部分对应于聚类 1 和 2,高于 0 的部分对应于聚类 3 和 4。类似地,对第三个特征向量进行阈值化会分离将聚类 1 和 4 与聚类 2 和 3 分开,对第四个特征向量进行阈值处理将聚类 1 和 3 与聚类 2 和 4 分开。总而言之,前四个特征向量携带有关四个聚类的所有信息。在此图中所示的所有情况下,在前四个特征向量上使用 k 均值的谱聚类可以轻松检测到正确的四个聚类。

“5 Graph cut point of view” 图割观点

聚类的直觉是根据相似性将不同组中的点分开。对于以相似图形式给出的数据,这个问题可以重述如下:我们想要找到图的一个分区,使得不同组之间的边具有非常低的权重(这意味着不同簇中的点与彼此)并且组内的边具有高权重(这意味着同一簇内的点彼此相似)。在本节中,我们将看到如何导出谱聚类作为此类图划分问题的近似。

给定一个具有邻接矩阵 W 的相似图,构造图的划分的最简单、最直接的方法是解决最小割问题。要定义它,请回忆一下符号 W(A,B) := Σ i∈A,j∈B wij 和 ̄ A 表示 A 的补集。对于给定数量 k 的子集,mincut 方法只需选择一个最小化


的分划 A1,...,Ak 。

这里我们引入因子 1/2 以保证符号的一致性,否则我们会在划分中对每条边进行两次计数。特别是对于 k = 2,mincut 是一个相对简单的问题,并且可以有效地解决,请参见 Stoer 和 Wagner (1997) 以及其中的讨论。然而,在实践中,它通常不会产生令人满意的分区。问题在于,在许多情况下,mincut 的解决方案只是将一个单独的顶点与图的其余部分分开。当然,这不是我们想要在聚类中实现的目标,因为聚类应该是相当大的点组。规避此问题的一种方法是明确要求集合 A1,...,Ak “相当大”。对此进行编码的两个最常见的目标函数是 RatioCut(Hagen 和 Kahng 1992)和归一化划分 Ncut(Shi 和 Malik 2000)。在 RatioCut 中,图的子集 A 的大小通过其顶点数 |A| 来衡量,而在 Ncut 中,大小通过其边的权重 vol(A) 来衡量。

定义是:

请注意,如果簇 Ai 不太小,则两个目标函数都取较小的值。特别地,如果所有 |Ai| 都达到函数 Σki=1(1/|Ai |) 的最小值。重合,并且如果所有 vol(Ai) 重合,则达到 Σki=1(1/|Ai |)  的最小值。因此,这两个目标函数试图实现的是簇是“平衡的”,分别通过顶点数或边权重来衡量。不幸的是,引入平衡条件使得以前简单解决的最小割问题变得 NP 困难,参见 Wagner 和 Wagner (1993) 的讨论。谱聚类是解决这些问题的轻松版本的一种方法。我们将看到松弛 Ncut 会导致归一化谱聚类,而松弛 RatioCut 则会导致非归一化谱聚类(另请参阅 Ding 2004 年的教程幻灯片)。

5.1 Approximating RatioCut for k = 2 k = 2 时的近似 RatioCut

让我们从 RatioCut 和 k = 2 的情况开始,因为在这种情况下松弛最容易理解。我们的目标是解决优化问题

我们首先以更方便的形式重写问题。给定子集 A ⊂ V,我们定义向量 f = (f1,...,fn)′ ∈ Rn ,其中包含条目

现在,可以使用非标准化图拉普拉斯算子方便地重写 RatioCut 目标函数。这是由于以下计算:

此外,我们还有

换句话说,(2) 中定义的向量 f 与常数一向量 1 正交。最后,请注意 f 满足

总而言之,我们可以看到最小化(1)的问题可以等效地重写为

这是一个离散优化问题,因为解向量f的条目只允许取两个特定值,当然它仍然是NP困难的。此设置中最明显的松弛是放弃离散条件,而是允许 fi 取 R 中的任意值。这会导致松弛的优化问题

根据 Rayleigh-Ritz 定理(例如,参见 Lütkepohl 1997 的第 5.5.2 节),可以立即看出该问题的解由向量 f 给出,该向量 f 是对应于 L 的第二小特征值的特征向量(回想一下) L 的最小特征值为 0,特征向量为 1)。因此,我们可以通过 L 的第二个特征向量来近似 RatioCut 的最小值。但是,为了获得图的分区,我们需要将松弛问题的实值解向量 f 重新转换为离散指标向量。最简单的方法是使用 f 的符号作为指示函数,即选择

然而,特别是在下面处理的k>2的情况下,这种启发式过于简单。大多数谱聚类算法所做的是将坐标 fi 视为 R 中的点,并通过 k 均值聚类算法将它们聚类为两组 C、̄ C。然后我们将得到的聚类结果转移到底层数据点,即我们选择

这正是 k = 2 情况下的非归一化谱聚类算法。

5.2 Approximating RatioCut for arbitrary k 任意 k 的近似 RatioCut

一般值 k 情况下 RatioCut 最小化问题的松弛遵循与上述类似的原理。给定 V 划分为 k 个集合 A1,...,Ak,我们定义 k 个指示向量 hj = (h1,j ,...,hn,j )′

然后我们将矩阵 H ∈ Rn×k 设置为包含这 k 个指示向量作为列的矩阵。观察 H 中的列彼此正交,即 H ′H = I 。与上一节的计算类似,我们可以看到

此外,人们可以检查一下

hi’ Lhi = (H ′LH )ii。

结合我们得到的这些事实

其中 Tr 表示矩阵的迹。因此,最小化 RatioCut(A1,...,Ak) 的问题可以重写为

与上面类似,我们现在通过允许矩阵 H 的条目取任意实数值来松弛问题。那么松弛的问题就变成了  

这是迹最小化问题的标准形式,瑞利-里茨定理的一个版本(例如,参见 Lütkepohl 1997 年的第 5.2.2(6) 节)告诉我们,通过选择 H 作为矩阵给出解决方案其中包含 L 的前 k 个特征向量作为列。我们可以看到,矩阵 H 实际上是(正如第 4 节中描述的)在非归一化谱聚类算法中使用的矩阵 U。我们再次需要将实值解矩阵重新转换为离散分区。如上所述,标准方法是对 U 的行使用 k-means 算法。这导致了第 4 节中介绍的一般非归一化谱聚类算法。

5.3 Approximating Ncut 近似Ncut

与用于 RatioCut 的技术非常相似的技术可用于导出归一化谱聚类作为最小化 Ncut 的松弛。在 k = 2 的情况下,我们将簇指示向量 f 定义为

与上面类似,可以检查 (Df )′1 = 0、f ′Df = vol(V ) 和 f ′Lf = vol(V ) Ncut(A, ̄ A)。因此我们可以通过等价问题重写最小化 Ncut 问题

我们再次通过允许 f 取任意实值来松弛问题:

现在我们替换 g := D1/2f 。替换后问题是

观察 D−1/2LD−1/2 = Lsym,D1/21 是 Lsym 的第一个特征向量,vol(V ) 是一个常数。因此,(9) 是标准瑞利-里兹定理的形式,其解 g 由 Lsym 的第二特征向量给出。重新代入 f = D−1/2g 并使用命题 3,我们看到 f 是 Lrw 的第二个特征向量,或者等效地是 Lu = λDu 的广义特征向量。

对于找到 k>2 个簇的情况,我们通过

定义指示向量 hj = (h1,j ,...,hn,j )′,然后我们将矩阵 H 设置为包含这 k 个指示向量作为列的矩阵。观察 H ′H = I ,

hi′ Dhi = 1,且 hi′ Lhi  = cut(Ai , ̄ Ai)/ vol(Ai)。因此我们可以将最小化 Ncut 的问题写为

放宽离散条件并代入 T = D1/2H 我们得到松弛问题

这又是标准迹最小化问题,由矩阵 T 解决,矩阵 T 包含 Lsym 的前 k 个特征向量作为列。重新代入 H = D−1/2T 并使用命题 3,我们看到解 H 由矩阵 Lrw 的前 k 个特征向量或 Lu = λDu 的前 k 个广义特征向量组成。根据 Shi 和 Malik (2000),这产生了归一化谱聚类算法。

“5.4 Comments on the relaxation approach” 对松弛方法的评论

关于谱聚类的推导,我们应该做一些评论。最重要的是,与精确解相比,松弛问题的解的质量没有任何保证。即,如果 A1,...,Ak 是最小化 RatioCut 的精确解,B1,...,Bk 是非归一化谱聚类构造的解,则 RatioCut(B1,...,Bk) − RatioCut( A1,...,Ak) 可以任意大。 k = 2 情况的示例可以在 Guattery 和 Miller (1998) 中找到。

在这里,作者考虑了一类非常简单的图,称为“蟑螂图”。这些图本质上看起来像一个梯子,删除了一些边缘,见图 2。显然,理想的 RatioCut 只是通过垂直划分来划分梯子,使得 A = {v1,...,vk,v2k+1,。 ..,v3k} 和 ̄ A ={vk+1,...,v2k,v3k+1,...,v4k}。此剪切与 |A|=| 完美平衡̄ A|=2k 且 cut(A, ̄ A) = 2。然而,通过研究蟑螂图的非归一化图拉普拉斯算子的第二特征向量的性质,作者证明非归一化谱聚类总是水平穿过梯子,构造设 B ={v1,...,v2k} 且 ̄ B ={v2k+1,...,v4k}。这也导致了平衡划分,但现在我们划分了 k 个边,而不是仅仅 2 个。因此 RatioCut(A, ̄ A) = 2/k,而 RatioCut(B, ̄ B) = 1。

这意味着与最优划分相比,通过谱聚类获得的RatioCut值差了k/2倍,即n量级的因子。其他几篇论文研究了谱聚类构建的聚类的质量,例如 Spielman 和 Teng (1996)(针对非归一化谱聚类)和 Kannan 等人。 (2004)(归一化谱聚类)。一般来说,众所周知,不存在将平衡图划分近似为常数因子的有效算法。相反,这个近似问题本身可能是 NP 困难的(Bui 和 Jones 1992)。

当然,我们上面讨论的松弛并不是独一无二的。例如,Bie 和 Cristianini (2006) 导出了导致半定规划的完全不同的松弛,并且可能还有许多其他有用的松弛。谱松弛之所以如此吸引人,并不是因为它能带来特别好的解决方案。它的流行主要是因为它产生了一个易于解决的标准线性代数问题。

6 Random walks point of view 随机游走的观点

解释谱聚类的另一个论据是基于相似图上的随机游走。图上的随机游走是一个从一个顶点随机跳转到另一个顶点的随机过程。我们将在下面看到,谱聚类可以解释为试图找到图的划分,使得随机游走在同一簇内停留很长时间并且很少在簇之间跳跃。直观上这是有道理的,特别是与上一节的图割解释一起:具有低割的平衡分区还将具有随机游走没有太多机会在​​簇之间跳转的属性。对于一般随机游走的背景阅读,我们参考 Norris (1997) 和 Brémaud (1999),对于图上的随机游走,我们推荐 Aldous 和 Fill(准备中)以及 Lovász (1993)。形式上,从顶点 vi 一步跳转到顶点 vj 的转移概率与边权重 wij 成正比,由 pij := wij /di 给出。随机游走的转移矩阵 P = (pij )i,j=1,...,n 定义为

P = D−1W。

如果图是连通的且非二分图,则随机游走始终具有唯一的平稳分布 π = (π1,...,πn)′,其中 πi = di/ vol(V )。显然,Lrw 和 P 之间存在紧密的关系,即 Lrw = I − P 。因此,当且仅当 1 − λ 是具有特征向量 u 的 P 的特征值时,λ 是具有特征向量 u 的 Lrw 的特征值。众所周知,图的许多属性可以用相应的随机游走转移矩阵 P 来表达,请参阅 Lovász (1993) 的概述。从这个角度来看,P 的最大特征向量和 Lrw 的最小特征向量可以用来描述图的聚类属性也就不足为奇了。

6.1 Random walks and Ncut 随机游走和Ncut

Meila 和 Shi (2001) 观察到 Ncut 和随机游走的转移概率之间的形式等价性。

命题 5(通过转移概率进行 Ncut)设 G 是连通的且非二分的。假设我们在平稳分布 π 中从 X0 开始运行随机游走 (Xt )t∈N 。对于不相交子集 A, B ⊂ V ,表示为 P(B|A) := P(X1 ∈ B|X0 ∈ A)。那么:Ncut(A, ̄ A) = P( ̄ A|A) + P(A| ̄ A)。

这个命题可以很好地解释 Ncut,从而也可以很好地解释归一化谱聚类。它告诉我们,当最小化 Ncut 时,我们实际上是在图上寻找切点,这样随机游走很少从 A 过渡到 ̄ A,反之亦然。

6.2 The commute distance 通勤距离

随机游走和图拉普拉斯算子之间的第二个联系可以通过图上的通勤距离来建立。两个顶点 vi 和 vj 之间的通勤距离(也称为阻力距离)cij 是随机游走从顶点 vi 到顶点 vj 并返回所需的预期时间(Lovász 1993;Aldous 和 Fill 正在准备)。通勤距离有几个很好的特性,这使得它对机器学习特别有吸引力。与图上的最短路径距离相反,如果从顶点 vi 到顶点 vj 有许多不同的短路径,则两个顶点之间的通勤距离会减小。因此,通勤距离不是仅仅寻找一条最短路径,而是着眼于一组短路径。图中由短路径连接且位于图的同一高密度区域中的点 被认为比由短路径连接但位于图的不同高密度区域中的点彼此更接近。从这个意义上说,通勤距离似乎特别适合用于聚类目的。

值得注意的是,图上的通勤距离可以借助图拉普拉斯 L 的广义逆(也称为伪逆或 Moore-Penrose 逆)L† 来计算。在下面,我们表示 ei = (0,.. .,0, 1, 0,...,0)′ 作为第 i 个单位向量。为了定义 L 的广义逆,回想一下,根据命题 1,矩阵 L 可以分解为 L = UΛU′,其中 U 是包含所有特征向量作为列的矩阵以及Λ为对角线上元素为特征值 λ1,...,λn 的对角矩阵。由于至少一个特征值是 0,所以矩阵 L 是不可逆的。相反,我们将其广义逆定义为 L† := UΛ†U ′,其中矩阵 Λ† 是对角矩阵,如果 λi ≠ 0 ,则对角元素为 1/λi, if λi = 0,对角元素为0。L† 的元素可以计算为 lij† = Σ k=2n 1/λk* uikujk。矩阵 L† 是半正定且对称的。有关 L† 的更多性质,请参见 Gutman 和 Xiao (2004)。

命题6 通勤距离(Commute distance)  设 G = (V , E) 一个连通的无向图。 cij 表示顶点 vi 和顶点 vj 之间的通勤距离,L† = (lij†)i,j=1,...,n 表示 L 的广义逆。那么我们有:

这一结果已由 Klein 和 Randic (1993) 发表,并通过电网络理论的方法得到了证明。有关使用随机游走第一步分析的证明,请参阅 Fouss 等人(2006)。在图拉普拉斯算子的帮助下,还存在其他方法来表达通勤距离。例如,Lovász (1993) 中的推论 3.2 可以找到一种根据归一化拉普拉斯 Lsym 特征向量的方法,并且可以在 Bapat 等人中找到一种借助 L 的某些子矩阵的行列式来计算通勤距离的方法(2003)。

命题 6 有一个重要的结论。它表明 √cij 可以被视为图顶点上的欧几里德距离函数。这意味着我们可以构造一个嵌入,将图的顶点 vi 映射到点 zi ∈ Rn 上,使得点 zi 之间的欧几里得距离与图上的通勤距离一致。其工作原理如下。由于矩阵 L† 是半正定且对称的,因此它在 Rn 上导出内积(或者更正式地说,它在垂直于向量 1 的 Rn 子空间上导出内积)。现在选择 zi 作为 Rn 中对应于矩阵 U(Λ†)1/2 第 i 行的点。然后,根据命题 6 和 L† 的构造,我们有 〈zi,zj 〉=ei ′ L†ej 且 cij = vol(V )‖zi − zj ‖2。

非归一化谱聚类中使用的嵌入与通勤时间嵌入相关,但不相同。在谱聚类中,我们将图的顶点映射到矩阵 U 的行 yi 上,而通勤时间嵌入将顶点映射到矩阵 (Λ†)1/2U 的行 zi 上。也就是说,与 yi 的条目相比,zi 的条目额外按 L 的逆特征值缩放。此外,在谱聚类中,我们仅采用矩阵的前 k 列,而通勤时间嵌入则采用所有列。几位作者现在试图证明为什么 yi 和 zi 总体上没有那么不同,并表示有点放弃,谱聚类基于 yi 之间的欧几里德距离构建聚类的事实可以解释为构建基于通勤距离的图表。但请注意,这两种方法可能有很大不同。例如,在图由k个不连通分量组成的最佳情况下,根据命题2,L的前k个特征值是0,并且U的前k列由簇指示向量组成。然而,矩阵 ( Λ†)1/2U 的前 k 列仅由零组成,因为 † 的前 k 个对角元素为 0。在这种情况下,U 的前 k 列中包含的信息在矩阵 ( Λ†)1/2U中被完全忽略,且矩阵 ( Λ†)1/2U 在列 k + 1到n 中找到的所有非零元素不会在谱聚类中考虑,从而丢弃所有这些列。另一方面,如果底层图是连通的,这些问题就不会发生。在这种情况下,唯一特征值为 0 的特征向量是常数一向量,在这两种情况下都可以忽略。然后,对应于 L 的小特征值 λi 的特征向量在矩阵( Λ†)1/2U中被强调,因为它们乘以 λ† i = 1/λi 。在这种情况下,通勤时间嵌入和频谱嵌入可能确实会做类似的事情。

总而言之,通勤时间距离似乎是一个有用的直觉,但如果不做进一步的假设,谱聚类和通勤距离之间只有相当松散的关系。这些关系可能会被加强,例如,如果相似函数是严格正定的。然而,我们还没有看到关于这一点的精确的数学表述。

7 Perturbation theory point of view 微扰理论观点

扰动理论研究的是如果我们添加一个小的扰动 H ,矩阵 A 的特征值和特征向量如何变化的问题,即我们考虑扰动矩阵 ̃ A := A + H 。

大多数微扰定理指出,A 和 ̃ A 的特征值或特征向量之间的一定距离受常量乘以 H 范数的限制。

该常数通常取决于我们正在查看的特征值,以及该特征值与频谱其余部分的分离程度(有关正式声明,请参见下文)。

那么谱聚类的理由如下:让我们首先考虑“理想情况”,其中簇间相似度恰好为 0。我们在第 3 节中已经看到。那么L或Lrw的前k个特征向量是簇的指示向量。在这种情况下,谱聚类算法中构造的点 yi ∈ Rk 具有 (0,...,0, 1, 0,...,0)′ 的形式,其中 1 的位置表示该点属于的连通分量。特别是,属于同一连通分量的所有 yi 都重合。 k-means 算法将通过在每个点 (0,...,0, 1, 0,...,0)′ ∈ Rk 上放置一个中心点来轻松找到正确的分区。在“近乎理想的情况”中,我们仍然具有不同的簇,但簇间相似度不完全为 0,我们认为拉普拉斯矩阵是理想情况矩阵的扰动版本。然后,扰动理论告诉我们,特征向量将非常接近理想的指示向量。点 yi 可能不完全与 (0,...,0, 1, 0,...,0)′ 重合,但会出现一些小误差项。

因此,如果扰动不太大,那么 k 均值算法仍然会将组彼此分开。

7.1 The formal perturbation argument 形式微扰论证

谱聚类扰动方法的正式基础是矩阵扰动理论中的“Davis-Kahan” 定理。该定理限制了扰动下对称矩阵特征空间之间的差异。我们陈述这些结果是为了完整性,但对于背景阅读,我们参考 Stewart 和 Sun (1990) 的 Sect.V 和  Bhatia (1997) Sect.VII.3。

在微扰理论中,子空间之间的距离通常使用“正则角”(也称为“主角”)来测量。为了定义主轴,令 V^1 和 V^2 为 Rd 的两个 p 维子空间,并且 V1 和 V2 为两个矩阵,使得它们的列分别形成 V^1 和 V^2 的正交系统。那么主角 Θi 的余弦 cos Θi 就是 V1′V2 的奇异值。当p = 1,这样定义的正则角与角度的正常定义一致。如果 V^1 和 V^2 尺寸不同,也可以定义正则角,参见斯图尔特和孙 (1990) 的 Sect.V,Bhatia (1997) 的 Sect.VII.3 或 Golub 和 Van Loan (1996) 的 Sect.12.4.3。矩阵 sin Θ(V1, V2) 表示对角矩阵,对角线上为正则角的正弦。

定理 7 (Davis-Kahan) 设 A, H ∈ Rn×n 为对称矩阵,并令 ‖·‖ 分别为矩阵的 Frobenius 范数或双范数。将 ̃ A := A + H 视为 A 的扰动版本。令 S1 ⊂ R 为区间。 σS1 (A) 表示 S1 中包含的 A 特征值集合,V1 表示对应于所有这些特征值的特征空间(更正式地说,V1 是 σS1 (A) 引起的光谱投影的图像)。用 σS1 ( ̃ A) 和 ̃ V1 表示 ̃ A 的类似量。将 S1 与 S1 之外A的  频谱之间的距离定义为

那么两个子空间 V1 和 ̃ V1 之间的距离 d(V1, ̃ V1) := ‖ sin (V1, ̃ V1)‖ 的边界为

有关该定理的讨论和证明,请参见Stewart 和 Sun (1990) 的 Sect. V.3。让我们尝试解密这个定理,为了简单起见,在非标准化拉普拉斯的情况下(对于标准化拉普拉斯它的工作原理类似)。在图有 k 个连通分量的理想情况下,矩阵 A 将对应于图拉普拉斯 L。矩阵 ̃ A 对应于一种扰动情况,其中由于噪声,图中的 k 个分量不再完全断开,但它们仅通过少数权重较低的边连接。我们用 ̃ L 表示这种情况的相应图拉普拉斯算子。对于谱聚类,我们需要考虑 ̃ L 的前 k 个特征值和特征向量。

用 λ1,...,λn 表示 L 的特征值,用 ̃ λ1 ,..., ̃ λn 表示扰动拉普拉斯 ̃ L 的特征值。

现在选择间隔S1是关键点。我们希望选择它,使得 ̃ L 的前 k 个特征值和 L 的前 k 个特征值都包含在 S1 中。

显然,扰动 H =L− ̃ L 越小则本征间隙 |λk − λk+1| 越大。如果我们设法找到这样一个集合,那么“Davis-Kahan” 定理告诉我们,理想矩阵 L 的前 k 个特征值和扰动矩阵 ̃ L 的前 k 个特征值对应的特征空间彼此非常接近,即它们的距离以 ‖H ‖/δ 为界。然后,由于理想情况下的特征向量在连通分量上是分段常数,因此在扰动情况下也大致如此。

“近似”的好坏取决于扰动 ‖H ‖ 的范数以及 S1 与 L 的第 (k + 1) 个特征向量之间的距离 δ。如果将集合 S1 选为区间 [0,λk],则 δ 重合光谱间隙 |λk+1 − λk|。

从定理我们可以看出,这个特征间隙越大,理想情况和扰动情况的特征向量越接近,因此谱聚类效果越好。下面我们将看到,特征间隙的大小也可以在不同的上下文中用作谱聚类的质量标准,即在选择要构建的聚类数量 k 时。

如果扰动 H 太大或特征间隙太小,我们可能找不到一个集合 S1 使得 L 和 ̃ L 的前 k 个特征值都包含在 S1 中。在这种情况下,我们需要做出妥协,选择集合 S1 来包含 L 的前 k 个特征值,但也可能包含更多或更少的 ̃ L 特征值。然后,定理的陈述变得更弱,因为我们要么不比较 L 和 ̃ L 的前 k 个特征向量对应的特征空间,而是比较 L 的前 k 个特征向量和 ̃ L 的前 ̃ k 个特征向量对应的特征空间(其中 ̃ k 是S1包含的 ̃ L 特征值的个数)。或者,可能会发生 δ 变得如此之小,以至于 d(V1, ̃ V1) 之间距离的界限膨胀得如此之大以至于变得毫无用处。

“7.2 Comments about the perturbation approach”  关于扰动方法的评论

使用扰动理论论证来证明基于矩阵特征向量的聚类算法的合理性时需要小心一些。一般来说,任何块对角对称矩阵都具有以下性质:存在特征向量的基,该特征向量在各个块之外为零并且在块内为实值。例如,基于这个论点,一些作者使用相似性矩阵 S 或邻接矩阵 W 的特征向量来发现簇。然而,在完全分离簇的理想情况下成为块对角线可以被认为是成功使用特征向量的必要条件,但不是充分条件。至少还应满足两个性质:

首先,我们需要确保特征值和特征向量的顺序有意义。对于拉普拉斯算子,这总是正确的,因为我们知道任何连通分量都恰好拥有一个特征值为 0 的特征向量。因此,如果图有 k 个连通分量并且我们采用拉普拉斯算子的前 k 个特征向量,那么我们知道每个分量只有一个特征向量。但是,对于其他矩阵(例如 S 或 W),情况可能并非如此。例如,块对角线相似度矩阵 S 的两个最大特征值可能来自同一块。在这种情况下,如果我们取 S 的前 k 个特征向量,某些块将被表示多次,而其他块我们将完全错过(除非我们采取某些预防措施)。这就是为什么不鼓励使用 S 或 W 的特征向量进行聚类的原因。

第二个属性是,在理想情况下,分量上特征向量的条目应该“安全地远离”0。假设第一个连通分量上的特征向量在位置 i 处有一个条目 u1,i > 0。在理想情况下,该条目非零的事实表明对应点 i 属于第一簇。相反,如果点 j 不属于簇 1,那么在理想情况下,应该是 u1,j = 0。现在考虑相同的情况,但数据受到扰动。扰动的特征向量 ̃ u 通常不再有任何非零分量;但如果噪声不太大,则扰动理论告诉我们,条目 ̃ u1,i 和 ̃ u1,j 仍然“接近”其原始值 u1,i 和 u1,j 。因此,两个条目 ̃ u1,i 和 ̃ u1,j 都将采用一些小值,例如 ε1 和 ε2。实际上,如果这些值非常小,我们就不清楚如何解释这种情况。我们要么认为 ̃ u 中的小条目表明这些点不属于第一个簇(然后错误地分类了第一个数据点 i),要么我们认为这些条目已经表明了类成员身份并将这两个点分类到第一个簇(这对点 j 进行了错误分类)。

对于矩阵L和Lrw来说,理想情况下的特征向量都是指示向量,因此不会出现上述第二个问题。然而,对于 Ng (2002)等人的归一化谱聚类算法中使用的矩阵 Lsym 来说,情况并非如此。即使在理想情况下,该矩阵的特征向量也给出为 D1/21Ai 。如果顶点的度数相差很大,特别是如果存在度数非常低的顶点,则特征向量中的相应条目非常小。为了解决上述问题,Ng 等人(2002)的算法中的行归一化步骤。 发挥作用。在理想情况下,算法中的矩阵 U 每行恰好有一个非零条目。经过行归一化后,Ng等人(2002) 的算法中的矩阵T由聚类指示向量组成。但请注意,这在实践中可能并不总是正确。假设我们有 ̃ ui,1 = ε1 和 ̃ ui,2 = ε2。如果我们现在对 U 的第 i 行进行归一化,则 ε1 和 ε2 都将乘以因子 1/ √ ε12 +ε2 2 并且变得相当大。我们现在遇到了如上所述的类似问题:两个点很可能被分类到同一簇中,即使它们属于不同的簇。该论点表明,如果特征向量包含特别小的条目,则使用矩阵 Lsym 进行谱聚类可能会出现问题。另一方面,请注意,只有当某些顶点的度数特别低时,特征向量中才会出现如此小的条目(因为 Lsym 的特征向量由 D1/21Ai 给出)。有人可能会说,在这种情况下,数据点无论如何都应该被视为异常值,然后该点最终位于哪个集群中并不重要。

总而言之,结论是:非归一化谱聚类和 Lrw 归一化谱聚类都可以通过微扰理论方法得到充分证明。使用 Lsym 的归一化谱聚类也可以通过扰动理论来证明,但如果图包含度数非常低的顶点,则应更加小心地对待。

8 Practical details 实用细节

在本节中,我们将简要讨论实际实现谱聚类时出现的一些问题。有多种选择和参数需要设置。然而,本节的讨论主要是为了提高对可能发生的一般问题的认识。对于各种现实世界任务的谱聚类行为的深入研究,我们参考了文献。

8.1 Constructing the similarity graph 构建相似图

构建谱聚类的相似图并不是一项简单的任务,而且人们对各种构建的理论含义知之甚少。

“8.1.1 The similarity function itself”  相似度函数本身

在我们考虑构建相似图之前,我们需要定义数据的相似函数。当我们稍后要构建邻域图时,我们需要确保由该相似性函数导出的局部邻域是“有意义的”。这意味着我们需要确保相似函数认为“非常相似”的点在数据来源的应用程序中也密切相关。例如,在构建文本文档之间的相似度函数时,检查相似度得分高的文档是否确实属于同一文本类别是有意义的。相似度函数的全局“远程”行为对于谱聚类来说并不那么重要——两个数据点的相似度得分是 0.01 还是 0.001 并不重要,因为我们不会在相似度图中连接这两个点反正。在数据点位于欧几里得空间 Rd 中的常见情况下,合理的默认候选者是高斯相似度函数 s(xi ,xj ) = exp(−‖xi − xj ‖2/(2σ 2)) (但当然我们需要在这里选择参数 σ,见下文)。最终,相似性函数的选择取决于数据来自的领域,并且不能给出一般性建议。

“8.1.2 Which type of similarity graph”  哪类相似图

必须做出的下一个选择涉及想要使用的图的类型,例如 k 最近邻图或 ε 邻域图。让我们使用图 3 中的玩具示例来说明不同图的行为。


(Von Luxburg, 2007, p. 409)

作为基础分布,我们选择 R2 上具有三个簇的分布:两个“卫星”和一个高斯分布。选择底部月亮的密度大于顶部月亮的密度。图 3 中的左上图显示了从此分布中抽取的样本。接下来的三个面板显示了该示例的不同相似性图。

在ε邻域图中,我们可以看到很难选择有用的参数ε。如图所示,当 ε = 0.3 时,中月上的点已经非常紧密地连接,而高斯上的点几乎没有连接。如果我们有“不同尺度”的数据,即空间不同区域的数据点之间的距离不同,这个问题总是会发生。

另一方面,The k-nearest neighbor graph k 最近邻图可以连接“不同尺度”的点。我们可以看到低密度高斯分布中的点与高密度月球中的点相连。这是 k 最近邻图的一般属性,非常有用。我们还可以看到,如果存在彼此距离相当远的高密度区域,则 k 最近邻图可能会分解为多个断开的组件。本例中的两个卫星就是这种情况。

The mutual k-nearest neighbor graph 互k近邻图具有倾向于连接恒定密度区域内的点,但不将不同密度的区域相互连接的性质。因此,相互 k-近邻图可以被认为是位于 ε-邻域图和 k-近邻图“之间”。它能够在不同的尺度上起作用,但不会将这些尺度相互混合。因此,如果我们想要检测不同密度的簇,相互 k 近邻图似乎特别适合。

全连接图经常与高斯相似函数 s(xi,xj ) = exp(−‖xi − xj ‖2/(2σ 2)) 结合使用。这里参数 σ 与 ε 邻域图中的参数 ε 起着类似的作用。本地邻域中的点具有相对较高的权重,而远处点之间的边具有正的但可以忽略不计的权重。然而,生成的相似度矩阵不是稀疏矩阵。

作为一般建议,我们建议将 k 最近邻图作为首选。它使用起来很简单,会产生稀疏的邻接矩阵 W ,并且根据我们的经验,与其他图相比,它更不容易受到不合适的参数选择的影响。

8.1.3 The parameters of the similarity graph相似图的参数

一旦决定了相似图的类型,就必须分别选择其连接参数 k 或 ε。不幸的是,几乎没有任何理论结果可以指导我们完成这项任务。一般来说,如果相似性图包含的连通分量多于我们要求算法检测的聚类数量,那么谱聚类将简单地将连通分量作为聚类返回。除非完全确定这些连通分量是正确的簇,否则应该确保相似性图是连通的,或者仅由“少数”连通分量和很少或没有孤立的顶点组成。关于如何实现随机图的连通性有很多理论结果,但所有这些结果仅在样本大小 n → 无穷大的情况下成立。例如,已知对于 n 个数据点绘制独立同分布来自 Rd 中具有连接支持的某些基础分布,如果我们按 log(n) 的顺序选择 k,则 k-近邻图和相互 k-近邻图将被连接(例如,Brito 等人,1997)。类似的论点表明,ε-邻域图中的参数 ε 必须选择为 (log(n)/n)d 以保证极限内的连通性 (Penrose 1999)。虽然具有理论意义,但所有这些结果并不能真正帮助我们在有限样本上选择 k。

现在让我们给出一些经验法则。当使用 k 最近邻图时,应选择连接参数,以便生成的图是连接的,或者至少具有比我们想要检测的簇少得多的连接组件。对于小型或中型图表,可以“步行”进行尝试。对于非常大的图,第一个近似可以是按 log(n) 的顺序选择 k,如渐近连通性结果所示。

对于互k近邻图,我们不得不承认我们有点迷失经验法则。互k近邻图与标准k近邻图相比的优点是它倾向于不连接不同密度的区域。虽然如果存在由单独的高密度区域引起的清晰聚类,这可能是件好事,但在不太明显的情况下,这可能会造成伤害,因为图中断开的部分始终会被谱聚类选择为聚类。一般来说,我们可以观察到,对于相同参数 k,相互 k 近邻图的边数比标准 k 近邻图少得多。这表明为相互 k 近邻图选择的 k 明显大于为标准 k 近邻图选择的 k。然而,为了利用相互 k 最近邻图不连接不同密度区域的特性,有必要考虑到图中的几个“有意义的”断开部分。不幸的是,我们不知道有任何通用的启发式方法来选择参数 k 来实现这一点。

对于 ε-邻域图,我们建议选择 ε 以使生成的图安全连接。要确定图连接处的 ε 最小值非常简单:必须选择 ε 作为数据点上全连接图的最小生成树中最长边的长度。后者可以通过任何最小生成树算法轻松确定。但请注意,当数据包含异常值时,此启发式方法将选择较大的 ε,以至于即使异常值也会与其余数据相关联。当数据包含多个彼此相距很远的紧密簇时,会发生类似的效果。在这两种情况下,ε 都会选择太大,无法反映数据最重要部分的规模。

最后,如果将完全连接的图与可自行缩放的相似性函数(例如高斯相似性函数)一起使用,则应选择相似性函数的尺度,使得生成的图具有与相应的 k 最近邻或 ε 邻域图类似的属性。需要确保对于大多数数据点来说,相似度显着大于 0 的邻居集合“不太小也不太大”。特别是,对于高斯相似函数,经常使用几个经验法则。例如,可以按照点到其第 k 个最近邻的平均距离的顺序选择 σ,其中 k 的选择与上面类似(例如,k ∼ log(n) + 1 )。另一种方法是通过上述最小生成树启发式确定ε,然后选择σ = ε。但请注意,所有这些经验法则都是非常临时的,并且根据手头给定的数据及其点间距离的分布,它们可能根本不起作用。

一般来说,经验表明谱聚类对相似图的变化及其参数的选择非常敏感。不幸的是,据我们所知,还没有系统的研究来调查相似图及其参数对聚类的影响,并提出合理的经验规则。上述建议都没有坚实的理论基础。寻找具有理论依据的规则应该被视为未来研究的一个有趣且重要的课题。

8.2 Computing the eigenvectors 计算特征向量

为了在实践中实现谱聚类,必须计算潜在大图拉普拉斯矩阵的前 k 个特征向量。幸运的是,如果我们使用 k-近邻图或 ε-邻域图,那么所有这些矩阵都是稀疏的。存在计算稀疏矩阵的第一个特征向量的有效方法,最流行的方法是幂方法或 Krylov 子空间方法,例如 Lanczos 方法(Golub 和 Van Loan 1996)。这些算法的收敛速度取决于特征间隙(也称为谱间隙)γk =|λk − λk+1| 的大小。特征间隙越大,计算前 k 个特征向量的算法收敛得越快。

请注意,如果所考虑的特征值之一的重数大于 1,则会出现一般问题。例如,在 k 个不相连簇的理想情况下,特征值 0 具有重数 k。正如我们所看到的,在这种情况下,特征空间由 k 个聚类指示向量组成。但不幸的是,数值特征求解器计算的向量不一定收敛到那些特定的向量。相反,它们只是收敛到特征空间的某个正交基,并且通常取决于算法准确收敛到哪个正交基的细节。但这毕竟还不算太糟糕。注意,对于某些系数 ai ,簇指示符向量 1Ai 所张成的空间中的所有向量都具有 u = Σk i=1 ai 1Ai 的形式,即它们在簇上是分段常数。因此,特征求解器返回的向量仍然对有关簇的信息进行编码,然后 k 均值算法可以使用这些信息来重建簇。

8.3 “The number of clusters” 簇的数量

选择簇的数量 k 是所有聚类算法的一个普遍问题,并且已经针对这个问题设计了各种或多或少成功的方法。在基于模型的聚类设置中,存在合理的标准来从数据中选择聚类数量。这些标准通常基于数据的对数似然,对数似然可以通过概率论或贝叶斯方式进行处理,例子参见 Fraley 和 Raftery (2002)。在对基础模型没有或很少做出假设的情况下,可以使用多种不同的指数来选择聚类的数量。示例范围从临时测量(例如簇内和簇间相似性的比率)、信息论标准(Still 和 Bialek 2004)、差距统计(Tibshirani 等人 2001)到稳定性方法(Ben-Hur 等人,2002 年;Lange 等人,2004 年;Ben-David 等人,2006 年)。当然,所有这些方法也可以用于谱聚类。此外,一种专为谱聚类设计的工具是特征间隙启发式,它可用于所有三个图拉普拉斯算子。这里的目标是选择数字 k,使得所有特征值 λ1,...,λk 都非常小,但 λk+1 相对较大。这个程序有几个理由。第一个是基于微扰理论,我们观察到在 k 个完全不连通的簇的理想情况下,特征值 0 具有重数 k,然后到第 (k + 1) 个特征值存在间隙 λk+1 > 0 .其他的解释可以由谱图论给出。这里,图的许多几何不变量可以借助图拉普拉斯算子的第一特征值来表达或有界。特别是,划分的大小与第一特征值的大小密切相关。有关该主题的更多详细信息,请参阅 Bolla (1991)、Mohar (1997) 和 Chung (1997)。

我们想在第 4 节中介绍的玩具示例中说明特征间隙启发式。 为此,我们考虑与第 4 节中类似的数据集。 但为了改变聚类的难度,我们考虑方差增加的高斯分布。

图 4 的第一行显示了三个样本的直方图。我们构建 10-最近邻图,如第 4 节中所述,并绘制不同样本上归一化拉普拉斯 Lrw 的特征值(非归一化拉普拉斯的结果类似)。第一个数据集由四个分离良好的簇组成,我们可以看到前4个特征值大约为0。然后第4个和第5个特征值之间有一个差距,即|λ5 − λ4|是比较大的。根据特征间隙启发式,该间隙表明数据集包含 4 个簇。对于完全连接图(已在图 1 中绘制)的结果,也可以观察到相同的行为。因此,我们可以看到,如果数据中的聚类非常明显,那么启发式方法就会很好地发挥作用。然而,集群的噪声越大或重叠越多,这种启发式的效果就越差。我们可以看到,对于聚类更加“模糊”的第二个数据集,第四个和第五个特征值之间仍然存在差距,但检测起来并不像之前的情况那么清晰。最后,在最后一个数据集中,没有明确定义的差距,所有特征值之间的差异大致相同。但另一方面,该数据集中的簇重叠得太多,以至于许多算法将很难检测到这些簇,除非它们对底层模型做出强有力的假设。在这个特定的示例中,即使对于查看直方图的人来说,也不清楚正确的簇数应该是多少。这说明,与大多数选择聚类数量的方法一样,如果数据包含非常明显的聚类,则特征间隙启发式通常效果很好,但在不明确的情况下,它也会返回不明确的结果。

最后,请注意,聚类数量的选择和邻域图的连通性参数的选择是相互影响的。例如,如果邻域图的连通性参数非常小,以至于图分成 k0 个连通分量,那么选择 k0 作为簇的数量是一个有效的选择。然而,邻域图一旦连接起来,就不清楚簇的数量和邻域图的连接参数如何相互作用。簇数量的选择和图的连接参数的选择本身都是困难的问题,并且据我们所知,它们的相互作用没有任何重要的信息。

8.4 The k-means step k-means步骤

我们在第4节中介绍的三种谱聚类算法。 使用 k 均值作为最后一步从特征向量的实值矩阵中提取最终分区。首先,请注意,在这一步中使用 k-means 算法没有什么原则性。事实上,正如我们从谱聚类的各种解释中看到的,如果数据包含表达良好的聚类,那么这一步应该非常简单。例如,在理想情况下,如果完全分离的簇,我们知道 L 和 Lrw 的特征向量是分段常数。在这种情况下,属于同一簇Cs的所有点xi都准确地映射到样本点yi,即映射到单位向量es ∈ Rk。在这种简单的情况下,应用于点 yi ∈ Rk 的任何聚类算法都将能够提取正确的聚类。

虽然在谱聚类的最后一步中选择哪种聚类算法在某种程度上是任意的,但人们可以认为至少点 yi 之间的欧几里德距离是一个有意义的量。我们已经看到,点 yi 之间的欧几里得距离与图上的“通勤距离”相关,并且在 Nadler 等人(2006) 中,作者表明,yi 之间的欧几里得距离也与更一般的“扩散距离”相关。此外,谱聚类的其他用途(例如,Bolla 1991 或 Belkin 和 Niyogi 2003)表明 Rd 中的欧几里得距离是有意义的。

代替 k 均值,人们还使用其他技术来从实值表示构建最终解决方案。例如,在 Lang (2006) 中,作者使用超平面来实现此目的。 Bach 和 Jordan (2004) 提出了更先进的特征向量后处理。在这里,作者研究了由前 k 个特征向量张成的子空间,并尝试使用分段常数向量尽可能地近似该子空间。这也导致最小化 Rk 空间中的某些欧几里德距离,这可以通过某种加权 k 均值算法来完成。

“8.5 Which graph Laplacian should be used?” 应使用哪种图拉普拉斯算子?

与谱聚类相关的一个基本问题是应该使用三个图拉普拉斯算子中的哪一个来计算特征向量。在决定这个问题之前,我们应该先看看相似图的度分布。如果图非常规则并且大多数顶点具有大致相同的度数,则所有拉普拉斯算子彼此非常相似,并且对于聚类同样有效。然而,如果图中的度分布非常广泛,则拉普拉斯算子差异很大。我们认为,有几个论点主张使用归一化而不是非归一化谱聚类,并且在归一化情况下使用 Lrw 的特征向量而不是 Lsym 的特征向量。

“8.5.1 Clustering objectives satisfied by the different algorithms” 不同算法满足的聚类目标

支持归一化谱聚类的第一个论点来自图划分的观点。为了简单起见,我们讨论 k = 2 的情况。一般来说,聚类有两个不同的目标:

1. 我们希望找到一个划分,使得不同簇中的点彼此不相似,即我们希望最小化簇间差异相似。在图形设置中,这意味着最小化 cut(A, ̄ A)。

2. 我们希望找到一个分区,使得同一簇中的点彼此相似,即我们希望最大化簇内相似度 W(A,A) 和 W(̄ A, ̄ A)。

RatioCut 和 Ncut 都通过在目标函数中显式合并 cut(A, ̄ A) 来直接实现第一个目标。然而,关于第二点,两种算法的行为不同。注意,W(A,A)= W(A,V)− W(A, ̄ A) = vol(A) − cut(A, ̄ A)。

因此,如果 cut(A, ̄ A) 很小且 vol(A) 很大,则簇内相似性最大化。由于这正是我们通过最小化 Ncut 实现的目标,因此 Ncut 准则实现了第二个目标。通过考虑另一个图割目标函数,即 Ding 等人(2001)引入的 MinmaxCut 准则,可以更明确地看出这一点。

与 Ncut 的分母中包含 vol(A) = cut(A, ̄ A) + W(A,A) 项相比,MinmaxCut 准则的分母中仅包含 W(A,A)。在实践中,Ncut 和 MinmaxCut 通常通过类似的切割来最小化,因为好的 Ncut 解决方案无论如何都会具有较小的 cut(A, ̄ A) 值,因此分母毕竟没有那么不同。此外,放松 MinmaxCut 会导致与放松 Ncut 完全相同的优化问题,即使用 Lrw 的特征向量进行归一化谱聚类。因此,我们可以通过多种方式看到归一化谱聚类结合了上述两个聚类目标。

现在考虑 RatioCut 的情况。这里的目标是最大化 |A|和| ̄ A|而不是 vol(A) 和 vol(̄ A)。但是|A|和 | ̄ A|不一定与簇内相似度相关,因为簇内相似度取决于边,而不取决于 A 中的顶点数量。例如,只需考虑一个集合 A,它具有非常多的顶点,所有顶点都只有非常多的顶点。彼此之间的低权重边。最小化 RatioCut 并不试图最大化簇内相似性,对于通过非归一化谱聚类进行松弛也是如此。因此,这是我们要记住的第一个要点:归一化谱聚类实现了上述两个聚类目标,而非归一化谱聚类仅实现了第一个目标。

“8.5.2 Consistency issues”  一致性问题

关于归一化谱聚类优越性的一个完全不同的论点来自对两种算法的统计分析。在统计设置中,假设数据点 x1,...,xn  i.i.d 于某些基础数据空间 X 上的某些概率分布 P 。那么最基本的问题就是一致性问题:如果我们绘制越来越多的数据点,谱聚类的聚类结果是否会收敛到底层空间 X 的有用分区?

对于两种归一化谱聚类算法,都可以证明情况确实如此(von Luxburg et al.,2004,2005)。在数学上,证明当我们取极限 n → ∞ 时,矩阵 Lsym 在强意义上收敛于 X 上连续函数的空间 C(X ) 上的算子 U。这种收敛意味着 Lsym 的特征值和特征向量收敛到 U 的特征值和特征向量,这反过来又可以转换为关于归一化谱聚类收敛的陈述。可以证明,U 的特征向量在 X 上引起的划分可以类似于谱聚类的随机游走解释来解释。也就是说,如果我们考虑数据空间 X 上的扩散过程,则由 U 的特征向量引起的分区使得扩散不会经常在不同簇之间进行转换(von Luxburg et al. 2004)。对于 Lsym 和 Lrw,所有关于归一化谱聚类的一致性陈述都在非常温和的条件下成立,这在现实世界的应用中通常得到满足。不幸的是,解释有关这些结果的更多细节超出了本教程的范围,因此我们建议感兴趣的读者参阅 von Luxburg 等人。 (出现)。

与归一化谱聚类的清晰收敛陈述相比,非归一化谱聚类的情况要令人不快得多。可以证明,非归一化谱聚类可能无法收敛,或者它可以收敛到构造由数据空间的单个点组成的簇的平凡解(von Luxburg 等人,2005 年)。从数学上讲,即使可以证明矩阵 (1/n)L 本身收敛到 C(X ) 上的某个极限算子 T(当 n →∞ 时),但该极限算子 T 的谱特性可能非常恶劣,以至于阻止了收敛的谱聚类。可以构建示例来表明这不仅对于非常大的样本量来说是一个问题,而且即使对于小样本量它也可能导致完全不可靠的结果。至少可以描述这些问题不发生时的条件:我们必须确保与非归一化谱聚类中使用的特征向量相对应的 L 特征值明显小于图中的最小度。这意味着如果我们使用前 k 个特征向量进行聚类,那么 λi << minj=1,...,n dj 对于所有 i = 1,...,k 应该成立。这种情况的数学原因是特征向量对应于大于 min dj 的特征值近似Dirac函数,即除了一个坐标外,它们在所有坐标中都近似为 0。如果这些特征向量用于聚类,那么它们会将特征向量非零的一个顶点与所有其他顶点分开,我们显然不想构造这样的划分。我们再次参考文献来获取精确的陈述和证明。

为了说明这种现象,请再次考虑我们来自 Sect. 4的玩具数据集。对于高斯相似函数参数σ的不同选择,我们考虑基于全连通图的非归一化拉普拉斯图的第一特征值和特征向量(见图1的最后一行和图5的所有行)。高于 min dj 的特征值绘制为蓝色星形,低于 min dj 的特征值绘制为红色菱形。虚线表示最小 dj 。一般来说,我们可以看到远低于虚线的特征值对应的特征向量是“有用的”特征向量。如果 σ = 1(已在图 1 的最后一行中绘制),特征值 2、3 和 4 显着低于 min dj ,并且相应的特征向量 2、3 和 4 是有意义的(如第 4 节中已讨论的) )。如果我们增加参数 σ ,我们可以观察到特征值趋向于 min dj 。如果 σ = 2,则只有前三个特征值低于 min dj(图 5 中的第一行),如果 σ = 5,则只有前两个特征值低于 min dj(图 5 中的第二行)。我们可以看到,一旦特征值接近或高于 min dj ,其相应的特征向量就逼近狄拉克函数。当然,这些特征向量不适合构建聚类。在 n →∞ 的极限下,这些特征向量将收敛到完美的狄拉克函数。我们对有限样本情况的说明表明,这种行为不仅会发生在大样本量的情况下,而且甚至可以在我们的玩具数据集中的小样本上生成。

需要强调的是,这些问题仅涉及矩阵 L 的特征向量,对于 Lrw 或 Lsym 不会发生。因此,从统计的角度来看,最好避免非归一化谱聚类并使用归一化算法。

“8.5.3 Which normalized Laplacian?”  哪个归一化拉普拉斯算子?

看看使用 Lrw 和 Lsym 的两种归一化谱聚类算法之间的差异,谱聚类的三种解释都支持 Lrw。原因是 Lrw 的特征向量是聚类指示向量 1Ai ,而 Lsym 的特征向量又相乘使用 D1/2,这可能会导致不希望的伪像。由于使用 Lsym 也没有任何计算优势,因此我们提倡使用 Lrw。

9 Outlook and further reading展望和延伸阅读

谱聚类可以追溯到 Donath 和 Hoffman (1973),他们首先建议基于邻接矩阵的特征向量构建图分区。同年,Fiedler(1973)发现图的双划分与图拉普拉斯算子的第二特征向量密切相关,并建议使用该特征向量来划分图。从那时起,谱聚类在不同的社区中被多次发现、重新发现和扩展,例如参见 Pothen 等人 (1990)、Simon (1991)、Bolla (1991)、Hagen 和 Kahng (1992)、Hendrickson 和 Leland (1995)、Van Driessche 和 Roose (1995)、Barnard 等人(1995)、斯皮尔曼和滕 (1996)、盖特里和米勒 (1998)。 Spielman 和 Teng (1996) 很好地概述了谱聚类的历史。

在机器学习社区中,谱聚类因 Shi 和 Malik (2000)、Ng 等人(2002)、Meila 和 Shi (2001) 以及 Ding (2004)的工作而流行起来。随后,谱聚类已扩展到许多非标准设置,例如应用于共聚类问题的谱聚类(Dhillon 2001)、具有附加辅助信息的谱聚类(Joachims 2003)、谱聚类与加权核-k之间的连接-means 算法(Dhillon 等人,2005 年),基于谱聚类(Bach 和 Jordan,2004 年)学习相似函数,或分布式环境中的谱聚类(Kempe 和 McSherry,2004 年)。此外,还发现了关于谱聚类与其他算法之间关系的新理论见解。 Dhillon 等人(2005)描述了谱聚类和加权内核 k 均值算法之间的联系。 谱聚类和(核)主成分分析之间的关系依赖于这样一个事实:图拉普拉斯算子的最小特征向量也可以解释为核矩阵(格拉姆矩阵)的最大特征向量。这种解释存在两种不同的风格:而 Bengio 等人。 (2004) 将矩阵 D−1/2WD−1/2 解释为核矩阵,其他作者 (Saerens et al. 2004) 将 L 或 Lsym 的 Moore-Penrose 逆解释为核矩阵。两种解释都可以用于构建谱聚类的(不同的)样本外扩展。关于谱聚类的应用案例,在过去的几年里,各个科学领域发表的论文数量如此之多,以至于无法全部引用。我们鼓励读者使用“谱聚类”一词查询他最喜欢的文献数据库,以获得对各种应用的印象。

谱聚类的成功主要基于它没有对聚类的形式做出强有力的假设。与 k 均值相反,k 均值的结果簇形成凸集(或者,准确地说,位于底层空间的不相交凸集),谱聚类可以解决非常普遍的问题,例如交织的螺旋。此外,只要我们确保相似图是稀疏的,即使对于大型数据集,谱聚类也可以有效地实现。一旦选择了相似图,我们只需解决线性问题,并且不存在陷入局部极小值或使用不同初始化多次重新启动算法的问题。然而,我们已经提到,选择一个好的相似图并不是一件容易的事,并且在邻域图参数选择不同的情况下,谱聚类可能非常不稳定。因此,谱聚类不能充当自动检测任何给定数据集中正确聚类的“黑盒算法”。但它可以被认为是一个强大的工具,如果小心使用,可以产生良好的结果。

在机器学习领域,图拉普拉斯不仅用于聚类,还出现在许多其他任务中,例如半监督学习(例如,Chapelle 等人,2006 年的概述)或流形重建(例如,Belkin 和 Niyogi (2003)。在大多数应用中,图拉普拉斯算子用于编码“接近”(即 wij 大)的数据点应该具有“相似”标签(即 fi ≈ fj )的假设。如果 wij (fi − fj )2 对于所有 i, j 都很小,即 f 'Lf 很小,则函数 f 满足此假设。有了这种直觉,我们就可以使用二次形式 f 'Lf 作为转导分类问题中的正则化器。解释图拉普拉斯算子的使用的另一种方法是通过它们编码的平滑度假设。具有较低 f 'Lf 值的函数 f 具有以下特性:在数据点密集的区域(即图形紧密连接),它仅变化“一点点”,而允许变化更多(例如,在低数据密度区域中更改符号)。从这个意义上说,f'Lf的小值编码了半监督学习中所谓的“聚类假设”,它要求分类器的决策边界应该位于低密度区域。

经常使用的直觉是图拉普拉斯在形式上看起来像连续拉普拉斯算子(这也是“图拉普拉斯”名称的由来)。为了看到这一点,通过关系 wij = 1/dij 2 将局部相似度 wij 转换为距离 dij 并观察到

看起来像一个差商。因此,命题 1 中的方程 f ′Lf = Σ ij wij (fi − fj )2 看起来像是与 Rn 上的标准拉普拉斯算子

相关的二次形式的离散版本,它满足

这种直觉在 Belkin (2003)、Lafon (2004)、Hein 等人(2005, 2007)、Belkin 和 Niyogi (2005)、Hein (2006)、Giné 和 Koltchinskii (2005)的著作中得到了精确体现。一般来说,证明图拉普拉斯算子是某些连续拉普拉斯算子的离散版本,并且如果图拉普拉斯算子是在随机采样数据点的相似图上构造的,那么它收敛于某个连续拉普拉斯算子(或Laplace-Beltrami算子) )在底层空间上。 Belkin (2003) 研究了收敛证明的第一个重要步骤,该步骤处理与离散图拉普拉斯算子相关的连续算子到 Laplace-Beltrami 算子的收敛。 Lafon (2004) 将他的结果从均匀分布推广到一般分布。然后,在 Belkin 和 Niyogi (2005) 中,作者使用均匀分布流形上的高斯相似函数证明了非归一化图拉普拉斯算子的点收敛结果。与此同时,海因等人。 (2005) 证明了更一般的结果,考虑到所有不同的图拉普拉斯算子 L、Lrw 和 Lsym、更一般的相似函数以及具有任意分布的流形。在 Giné 和 Koltchinskii (2005) 中,分布收敛结果和均匀收敛结果在均匀分布的流形上得到了证明。 Hein (2006) 研究了图拉普拉斯算子引起的平滑函数的收敛性,并显示了一致的收敛结果。

除了将图拉普拉斯算子应用于最广泛意义上的划分问题之外,图拉普拉斯算子还可以用于完全不同的目的,例如用于绘图(Koren 2005)。事实上,图的拓扑和属性与图拉普拉斯矩阵之间存在比我们在本教程中提到的更紧密的联系。现在已经了解了最基本的属性,感兴趣的读者可以自己进一步探索和享受该领域的大量文献。

总结:

Spectral clustering algorithms谱聚类算法

假设我们的数据由 n 个“点”x1,...,xn 组成,它们可以是任意对象。我们通过一些对称且非负的相似性函数来测量它们的成对相似性 sij = s(xi,xj),并用 S = (sij)i,j=1,...,n 表示相应的相似性矩阵。

Unnormalized spectral clustering 非归一化谱聚类

输入:相似度矩阵 S ∈ Rn×n,要构造的簇数 k。

• 通过第 2 节中描述的方法之一构建相似性图。设W为其加权邻接矩阵。

• 计算非归一化拉普拉斯L = D - W。    

• 计算L 的前k 个特征向量u1,...,uk。

• 令U ∈ Rn×k 为包含向量u1,...,uk 作为列的矩阵。

• 对于 i = 1,...,n,令 yi ∈ Rk 为对应于 U 的第 i 行的向量。

• 将 Rk 中的点 (yi )i=1,...,n 与 k 聚类-表示算法分为簇 C1,...,Ck。

输出:聚类 A1,...,Ak,其中 Ai ={j |yj ∈ Ci }。

归一化谱聚类有两种不同版本具体取决于使用哪种归一化图拉普拉斯算子:

“Normalized spectral clustering according to Shi and Malik (2000)”根据 Shi 和 Malik (2000) 的归一化谱聚类

输入:相似度矩阵 S ∈ Rn×n,要构造的簇数 k。

• 通过第2节中描述的方法之一构建相似性图。设W为其加权邻接矩阵。

• 计算非归一化拉普拉斯Lrw。  

• 计算广义特征问题Lu = λDu 的前k 个广义特征向量u1,...,uk。

• 令U ∈ Rn×k 为包含向量u1,...,uk 作为列的矩阵。

• 对于 i = 1,...,n,令 yi ∈ Rk 为对应于 U 的第 i 行的向量。

• 将 Rk 中的点 (yi )i=1,...,n 与 k 聚类-表示算法分为簇 C1,...,Ck。

输出:聚类 A1,...,Ak,其中 Ai ={j |yj ∈ Ci }。

请注意,该算法使用 L 的广义特征向量,根据命题 3,其对应于矩阵 Lrw 的特征向量。因此,事实上,该算法使用归一化拉普拉斯 Lrw 的特征向量,因此称为归一化谱聚类。

下一个算法也使用归一化拉普拉斯算子,但这次使用矩阵 Lsym 而不是 Lrw。正如我们将看到的,该算法需要引入其他算法不需要的额外行归一化步骤。

“Normalized spectral clustering according to Ng et al. (2002)” 根据 Ng 等人的归一化谱聚类。 (2002)

输入:相似度矩阵 S ∈ Rn×n,要构造的簇数 k。

• 通过第2节中描述的方法之一构建相似性图。设W为其加权邻接矩阵。

• 计算归一化拉普拉斯Lsym。

• 计算Lsym 的前k 个特征向量u1,...,uk。

• 令U ∈ Rn×k 为包含向量u1,...,uk 作为列的矩阵。

• 通过将行标准化为范数1,从U 形成矩阵T ∈ Rn×k,即设置tij = uij /(Σk uik2)1/2 。

• 对于i = 1,...,n,令yi ∈ Rk 为对应于T 的第i 行的向量。

• 使用kmeans 算法将点(yi )i=1,...,n 聚类为聚类C1,...,Ck。

输出:聚类 A1,...,Ak,其中 Ai ={j |yj ∈ Ci }。

在所有三种算法中,主要技巧是将抽象数据点 xi 的表示更改为点 yi ∈ Rk。

应使用哪种图拉普拉斯算子?

与谱聚类相关的一个基本问题是应该使用三个图拉普拉斯算子中的哪一个来计算特征向量。在决定这个问题之前,我们应该先看看相似图的度分布。如果图非常规则并且大多数顶点具有大致相同的度数,则所有拉普拉斯算子彼此非常相似,并且对于聚类同样有效。然而,如果图中的度分布非常广泛,则拉普拉斯算子差异很大。我们认为,有几个论点主张使用归一化而不是非归一化谱聚类,并且在归一化情况下使用 Lrw 的特征向量而不是 Lsym 的特征向量。

原因:

一般来说,聚类有两个不同的目标:

1. 我们希望找到一个划分,使得不同簇中的点彼此不相似,即我们希望最小化簇间差异相似。在图形设置中,这意味着最小化 cut(A, ̄ A)。

2. 我们希望找到一个分区,使得同一簇中的点彼此相似,即我们希望最大化簇内相似度 W(A,A) 和 W(̄ A, ̄ A)。

归一化谱聚类实现了上述两个聚类目标,而非归一化谱聚类仅实现了第一个目标。

Lrw 的特征向量是聚类指示向量 1Ai ,而 Lsym 的特征向量又相乘使用 D1/2,这可能会导致不希望的伪像。由于使用 Lsym 也没有任何计算优势,因此我们提倡使用 Lrw。

后面算对谱聚类的其他角度的理解,更具数学美感:

图割观点

聚类的直觉是根据相似性将不同组中的点分开。对于以相似图形式给出的数据,这个问题可以重述如下:我们想要找到图的一个分区,使得不同组之间的边具有非常低的权重(这意味着不同簇中的点与彼此)并且组内的边具有高权重(这意味着同一簇内的点彼此相似)。

mincut 方法只需选择一个最小化


的分划 A1,...,Ak 。mincut 是一个相对简单的问题,并且可以有效地解决,请参见 Stoer 和 Wagner (1997) 以及其中的讨论。然而,在实践中,它通常不会产生令人满意的分区。问题在于,在许多情况下,mincut 的解决方案只是将一个单独的顶点与图的其余部分分开。当然,这不是我们想要在聚类中实现的目标,因为聚类应该是相当大的点组。规避此问题的一种方法是明确要求集合 A1,...,Ak “相当大”。

在 RatioCut 中,图的子集 A 的大小通过其顶点数 |A| 来衡量,而在 Ncut 中,大小通过其边的权重 vol(A) 来衡量。松弛 Ncut 会导致归一化谱聚类,而松弛 RatioCut 则会导致非归一化谱聚类。详见Dect.5

随机游走的观点

解释谱聚类的另一个论据是基于相似图上的随机游走。图上的随机游走是一个从一个顶点随机跳转到另一个顶点的随机过程。我们将在下面看到,谱聚类可以解释为试图找到图的划分,使得随机游走在同一簇内停留很长时间并且很少在簇之间跳跃。直观上这是有道理的,特别是与上一节的图割解释一起:具有低割的平衡分区还将具有随机游走没有太多机会在​​簇之间跳转的属性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值