A tutorial on Spectral Clustering

最新推荐文章于 2023-08-31 17:05:00 发布

DawnRanger

最新推荐文章于 2023-08-31 17:05:00 发布

阅读量4.7k

点赞数 4

分类专栏： machine-learning 文章标签：谱聚类

machine-learning 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

1. 基础知识

令 $G=(V,E)$ 为无向图，节点集为 $V={v_1,v_2,...,v_n}$ . 假设图 $G$ 是有权图，节点 $v_i$ 和 $v_j$ 之间的权重为 $w_{ij} \geq 0$ . 权重邻接矩阵为 $W=(w_{ij})_{i,j=1,...,n}$ . 如果 $w_{ij}=0$ ，则说明它们不相连.节点 $v_i$ 的度数为：

d i = \sum j = 1 n w i j (权 重 之 和)

$d_i=\sum_{j=1}^n w_{ij}(权重之和)$
度数矩阵

D $D$ 定义为对角线元素为

d1,...,dn $d_1,...,d_n$ 对角矩阵.
给定节点集

A⊂V $A\subset V$ ，它的补集定义为

A¯=V∖A $\bar A=V\backslash A$ 。
指示向量定义为

1A=(f1,...,fn)′∈Rn $\mathbb{1_A}=(f_1,...,f_n)'\in \mathbb{R}^n$ ，当

vi∈A $v_i\in A$ 时

fi=1 $f_i=1$ ，反之

fi=0 $f_i=0$ .
两种衡量集合

A $A$ 大小的方式：

| A | : = t h e n u m b e r o f v e r t i c e s i n A v o l (A) : = \sum i \in A d i

$|A|:= the\; number\; of\; vertices\; in\; A\\ vol(A):=\sum_{i\in A}d_i$

特征值与特征向量：

设 $A=(a_{ij})_{n\times n}$ 是一个 $n$ 阶矩阵，如果有一个复数 $\lambda$ 及一个 $n$ 维非零列向量 $x=(x_1,\cdots,x_n)^T$ ，使得

A x = λ x

$Ax=\lambda x$
或：

(λ I - A) x = 0

$(\lambda I-A)x=0$
则称

λ $\lambda$ 为矩阵

A $A$ 的一个特征值，称非零列向量

x $x$ 为

A $A$ 的对应于特征值

λ $\lambda$ 的 特征向量.

半正定矩阵：

定义：如果矩阵 $A\in R^{n\times n}$ 是实对称矩阵，并且对于一切 $X\in R^n$ ，有 $X^TAX\geq 0$ ，则称矩阵 $A$ 为半正定矩阵.
对于一个n阶对称矩阵 $A$ ，以下命题等价：

A是半正定矩阵
A的所有特征值非负
A的所有主子式非负
存在n阶矩阵B，使得 $A=BB^T$
存在n阶下三角阵L，使得 $A=LL^T$
存在n阶对称矩阵C，使得 $A=C^2$

2. 图的拉普拉斯算子及其性质

谱聚类的主要工具就是拉普拉斯算子。拉普拉斯算子一类矩阵的统称，并非特指某一个算子。下面当我们提到矩阵的特征向量的时候，并不一定要求其模为1.因此线性相关的多个向量会被当成同一个. 特征值总是会被按照递增的顺序排列. 最先的k个特征向量(the first k eigenvector)指的是k个最小的特征值所对应的特征向量。

2.1 未规则化的拉普拉斯算子

未规则化的拉普拉斯矩阵为：

L = D - W

$L=D-W$
它的主要性质如下：

对于任意的向量 $f\in \mathbb{R}^n$ ，有：
$f' L f = 1 2 \sum i, j = 1 n w i j (f i - f j) 2$ $f'Lf=\frac{1}{2}\sum_{i,j=1}^n w_{ij}(f_i-f_j)^2$
$L$ 是对称的并且半正定的
$L$ 的最小特征值是0，对应的特征向量是常数1向量 $\mathbb{1}$ (各行之和为0)
$L$ 有n个非负实值特征值 $0=\lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n$

说明：
1. 未规则化的拉普拉斯算子与邻接矩阵 $W$ 的对角线上的元素无关. 即使对角线上有值，那么与没有值的L是完全相同的. 可见自环不会改变对应的拉普拉斯算子.
2. 未规则化的拉普拉斯算子及其特征值、特征向量可用来描述图的许多性质. 在谱聚类中的一个重要性质为：图G的连通分量的个数等于特征值0的代数重数(multiplicity of eigenvalue 0).特征值0的特征子空间由连通分量的指示向量构成.(The eigenspace of eigenvalue 0 is spanned by the indicator vectors of those components.)

2.2 规则化的拉普拉斯算子

有两个矩阵被称为规则化拉普拉斯算子：

L s y m L r w = D - 1 / 2 L D - 1 / 2 = I - D - 1 / 2 W D - 1 / 2 = D - 1 L = I - D - 1 W

$\begin{aligned} L_{sym}&=D^{-1/2}LD^{-1/2}=I-D^{-1/2}WD^{-1/2} \\ L_{rw}&=D^{-1}L=I-D^{-1}W \end{aligned}$

$L_{sym}$ 的下标表示它是一个对称(symmetric)矩阵， $L_{rw}$ 的下标是因为它与随机游走(random walk)有紧密联系. 它们有如下性质：

对于任意 $f\in \mathbb{R}^n$ ，
$f' L s y m f = 1 2 \sum i, j = 1 n w i j (f i d \sqrt i - f j d \sqrt j) 2$ $f'L_{sym}f=\frac{1}{2}\sum_{i,j=1}^nw_{ij}\bigg(\frac{f_i}{\sqrt d_i}-\frac{f_j}{\sqrt d_j}\bigg)^2$
$\lambda$ 是 $L_{rw}$ 的特征向量为 $v$ 的特征值当且仅当 $\lambda$ 是 $L_{sym}$ 的特征向量为 $w=D^{-1/2}$ 的特征值
$\lambda$ 是 $L_{rw}$ 的特征向量为 $v$ 的特征值当且仅当 $\lambda$ 和 $v$ 能求解泛化了的特征问题(generalized eigenproblem) $Lv=\lambda Dv$
0是 $L_{rw}$ 的特征向量为常数1向量 $\mathbb{1}$ 的特征值. 0是 $L_{sym}$ 的特征向量为 $D^{-1/2}\mathbb{1}$ 的特征值
$L_{sym}$ 和 $L_{rw}$ 是半正定矩阵且有 $n$ 个非负实值特征值 $0=\lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n$

说明：
规则化拉普拉斯算子的特征值0的重数同样与图的连通分量个数有关：
$L_{rw}$ 和 $L_{sym}$ 的特征值0的重数等于连通分量的个数. 对于 $L_{rw}$ ，特征值0的特征空间由各连通分量的指示向量 $\mathbb{1_A}$ 组成；对于 $L_{sym}$ ，特征值0的特征空间由各连通分量的向量 $D^{-1/2}\mathbb{1_A}$ 组成.

3. 从图分割看谱聚类

下面将从图分割角度推导出谱聚类。

三种cut:

$cut(A,\bar A)=\sum_{i\in A,j\in \bar A}w_{ij}$
$RatioCut(A,\bar A)=\frac{cut(A,\bar A)}{|A|}+\frac{cut(A,\bar A)}{|\bar A|}$
$NCut(A,\bar A)=\frac{cut(A,\bar A)}{vol(A)}+\frac{cut(A,\bar A)}{vol(\bar A)}$

已经有很高效的方法解决mincut问题，但是mincut多数情况下只是将单个节点从原图分割出去. RatioCut和NCut都试图将图划分得更加均衡，然而很不幸的是这将使问题变为NP hard. 谱聚类是一种解决这些问题的松弛化版本的一种方法，松弛RatioCut对应未规则化谱聚类，松弛NCut对应规则化谱聚类.

3.1 RatioCut推导

考虑k=2的情况. 目标函数：

min A \subset V R a t i o C u t (A, A ¯)

$\mathop{\min}_{A \subset V} RatioCut(A,\bar A)$

为了将问题改写为更方便的方式，定义一个 N 维列向量 f：

f i = ⎧ ⎩ ⎨ ⎪ ⎪ | A ¯ | / | A | - - - - - - \sqrt, i f v i \in A - | A | / | A ¯ | - - - - - - \sqrt, i f v i \in A ¯

$f_i = \begin{cases} \sqrt{|\bar A| / |A|}, if \; v_i \in A \\ -\sqrt{|A| / |\bar A|} ,if \; v_i \in \bar A \end{cases}$
（f 对应每个节点所对应的分类。后面可以看到，之所以这样构造是因为 f 满足

fTf $f^Tf$ 是个常数，进而可以方便地引入瑞利商理论。）

现在可以用未规则化的拉普拉斯算子改写目标函数：

f T L f = = = = = 1 2 \sum i, j = 1 N w i j (f i - f j) 2 1 2 [\sum i \in A, j \in A ¯ w i j (| A ¯ | | A | - - - \sqrt + | A | | A ¯ | - - - \sqrt) 2 + \sum i \in A ¯, j \in A w i j (- | A ¯ | | A | - - - \sqrt - | A | | A ¯ | - - - \sqrt) 2] c u t (A, A ¯) (| A ¯ | | A | + | A | | A ¯ | + 2) c u t (A, A ¯) (| A | + | A ¯ | | A | + | A | + | A ¯ | | A ¯ |) | V | \cdot R a t i o C u t (A, A ¯)

$\begin{aligned} f^TLf=&\frac{1}{2}\sum_{i,j=1}^Nw_{ij}(f_i-f_j)^2 \\ =& \frac{1}{2} \Bigg[\sum_{i\in A,j\in \bar A}w_{ij}{\bigg(\sqrt{\frac{|\bar A|}{|A|}} + \sqrt{\frac{|A|}{|\bar A|}}\bigg)}^2+\sum_{i\in \bar A,j \in A}w_{ij}\bigg(-\sqrt{\frac{|\bar A|}{|A|}} - \sqrt{\frac{|A|}{|\bar A|}}\bigg)^2 \Bigg] \\ =& cut(A,\bar A)\big(\frac{|\bar A|}{|A|}+\frac{|A|}{|\bar A|} +2 \big) \\ =& cut(A,\bar A)\big(\frac{|A| + |\bar A|}{|A|}+\frac{|A|+|\bar A|}{|\bar A|}\big) \\ =&|V|\cdot RatioCut(A,\bar A) \end{aligned}$

另外，如果令 $\mathbf{1}$ 为各个元素全为 1 的向量的话，直接展开可以很容易得到 $f^T\mathbf{1} = \sum f_i = 0$ 和 $f^Tf=\|f\|^2 = \sum f_i^2 = n$ 。

由于 |V| 是一个常量，因此目标函数可等价写成：

min A \subset V f' L f, s u b j e c t t o f ⊥ 1 a n d ∥ f ∥ = n \sqrt

$\mathop{\min}_{A\subset V} f'Lf,subject\; to\; f\perp \mathbb{1}\; and\;\| f\|=\sqrt n$

根据 Rayleigh-Ritz 理论，这个问题的解 $f$ 即为 $L$ 的第二小特征值(因为最小特征值为0)所对应的特征向量.

到这一步，我们看起来好像是很容易地解决了前面那个 NP hard 问题，实际上是我们耍了一个把戏：之前的问题之所以 NP hard 是因为向量 $f$ 的元素只能取两个值 $\sqrt{|\bar{A}|/|A|} 和 -\sqrt{|A|/|\bar{A}|}$ 中的一个，是一个离散的问题，而我们求的的特征向量 v 其中的元素可以是任意实数，就是说我们将原来的问题限制放宽了。那如何得到原来的解呢？一个最简单的办法就是看 v 的每个元素是大于零还是小于零，将他们分别对应到离散情况的 $\sqrt{|\bar{A}|/|A|} 和 -\sqrt{|A|/|\bar{A}|}$ ，不过我们也可以采取稍微复杂一点的办法，用 k=2 的 K-means 来将 v 的元素聚为两类。