谱聚类算法详解

最新推荐文章于 2023-08-05 23:02:25 发布

jteng

最新推荐文章于 2023-08-05 23:02:25 发布

阅读量1.3w

点赞数 12

分类专栏：机器学习文章标签：谱聚类 spectral 机器学习 clustering

本文链接：https://blog.csdn.net/jteng/article/details/49590069

版权

机器学习专栏收录该内容

7 篇文章 3 订阅

订阅专栏

谱聚类（Spectral Clustering）算法简单易行，其聚类性能优于传统的K-means算法。谱聚类将数据的划分转化为对图的分割，是一种基于图论的聚类方法，其直观理解为根据图内点的相似度将图分为多个子图，使子图内部的点相似度最高，子图之间点的相似度最低。

1. 图论基础

1.1 图的表示

记 $G = (V, E)$ 表示一个无向加权图， $V$ 表示所有顶点的集合 $V=\{v_1,...,v_n\}$ ， $E$ 表示所有边的集合，并且任意两点 $v_i$ 和 $v_j$ 的边具有非负权值 $w_{ij}\geq0$ 。图的邻接矩阵为 $W=(w_{ij})_{i,j=1,...,n}$ ，如果 $w_{ij}=0$ 则表示点 $v_i$ 和 $v_j$ 之间没有连接。由于 $G$ 为无向图，所以其邻接矩阵具有对称性，即 $w_{ij}=w_{ij}$ 。图中任一点 $v_i$ 的度为 $d_i=\sum_{j=1}^nw_{ij}$ ，表示一个点与其他所有点的连接情况，图的度矩阵 $D$ 为每个点的度所构成的对角矩阵 $D=diag\{d_1,...,d_n\}$ 。

1.2 相似度图的构造方法

给定一组数据集 $V=\{v_1,...,v_n\}$ ，将其构造为相似度图的意义在于描述点对之间的局部近邻关系。此处介绍三种构造相似度图的方法。
（1）ε近邻图。如果两点之间的距离小于给定值ε，则连接两点。ε的值需要根据图中各点的距离选择，使与某一点连接的点不会太多，也不会太少。
（2） $k$ 近邻图。如果点 $v_j$ 是 $v_i$ 的 $k$ 近邻点之一，则连接两点。由于近邻点的非相互性，按此方法构造的邻接矩阵不对称，一种方法是采取“或”的方式，即如果 $v_j$ 是 $v_i$ 的 $k$ 近邻点之一，或 $v_i$ 是 $v_j$ 的 $k$ 近邻点之一，则连接两点；另一种方法是采取“与”的方式，如果 $v_j$ 是 $v_i$ 的k近邻点之一，并且 $v_i$ 是 $v_j$ 的k近邻点之一，则连接两点。
（3）全连接图。不考虑任何因素，直接将所有的点两两相连，由于图表示点之间的局部邻接特性，常用的相似性函数为 $s(x_i,x_j)=exp(-\dfrac{\|x_i-x_j\|^2}{2\sigma^2})$ 。

1.3 图的Laplacian矩阵

这里我们要讲到谱聚类中的关键内容——拉普拉斯矩阵，其定义为 $L=D – W$ ，其中 $D$ 和 $W$ 就是上文定义的图的度矩阵和邻接矩阵。下面我们给出谱聚类中用到的拉普拉斯矩阵的一些性质。
（1）对任意的向量 $f \in \mathbb{R}^n$ ，有 $f^TLf=\dfrac{1}{2}\sum\limits_{i,j=1}^nw_{ij}(f_i-f_j)^2$ 。
证明：（此处用到了W的对称性）

f T L f = f T D f - f T W f = \sum i = 1 n f 2 i d i - \sum i, j = 1 n w i j f i f j = \sum i, j = 1 n w i j f 2 i - \sum i, j = 1 n w i j f i f j = 1 2 ⎛ ⎝ \sum i, j = 1 n w i j f 2 i + \sum i, j = 1 n w i j f 2 j ⎞ ⎠ - \sum i, j = 1 n w i j f i f j = 1 2 \sum i, j = 1 n w i j (f i - f j) 2

$\begin{array}{l} {f^T}Lf &= {f^T}Df - {f^T}Wf \\ &= \sum\limits_{i = 1}^n {f_i^2{d_i}} - \sum\limits_{i,j = 1}^n {{w_{ij}}{f_i}{f_j}} \\ & = \sum\limits_{i,j = 1}^n {{w_{ij}}f_i^2} - \sum\limits_{i,j = 1}^n {{w_{ij}}{f_i}{f_j}} \\ & = \frac{1}{2}\left( {\sum\limits_{i,j = 1}^n {{w_{ij}}f_i^2} + \sum\limits_{i,j = 1}^n {{w_{ij}}f_j^2} } \right) - \sum\limits_{i,j = 1}^n {{w_{ij}}{f_i}{f_j}} \\ &= \frac{1}{2}\sum\limits_{i,j = 1}^n {{w_{ij}}{{\left( {{f_i} - {f_j}} \right)}^2}} \end{array}$
（2）

L $L$ 是对称半正定矩阵，该性质可由（1）直接得到。
（3）

L $L$ 的最小特征值为

0 $0$ ，对应的特征向量为常数向量

1 $1$ ，即

L $L$ 的行和或列和为

0 $0$ 。
（4）本文假设

L $L$ 的特征值按照从小到大的顺序排列，

0=λ1≤...≤λn $0={\lambda}_1 \le ... \le \lambda_n$ 。
此外，还有normalized Laplacian，分别定义为

Lsym=D−12LD−12=I−D−12WD−12 $L_{sym}=D^{-\frac{1}{2}}LD^{-\frac{1}{2}}=I-D^{-\frac{1}{2}}WD^{-\frac{1}{2}}$ ，和

Lrm=D−1L=I−D−1W $L_{rm}=D^{-1}L=I-D^{-1}W$ ，其中两个下标sym和rw分别代表symmetric和random walk，此处不再介绍这两个矩阵的性质。

2. 谱聚类算法

2.1 图的分割问题

谱聚类算法源于图的分割（cut），首先将所有的样本点连接成图，然后将图分割成不同的子图，使得不同子图之间的连接权值最小。
定义两个子图之间的连接权值为 $W(A,B)=\sum_{i \in A,j \in B}w_{ij}$ ，记 $\overline{A}$ 为 $A$ 的补集，为了表达方便，我们记 $v_i \in A$ 为 $i \in A$ 。如果将图分割为 $k$ 个子图 $A_1,...,A_k$ ，那么最优分割问题可通过最小化如下表达式来实现：

c u t (A 1, . . ., A k) = 1 2 \sum i = 1 k W (A i, A i ¯ ¯ ¯ ¯)

$\begin{array}{c} cut(A_1,...,A_k)=\dfrac{1}{2}\sum\limits_{i=1}^k W(A_i,\overline{A_i})\end{array}$ 然而，此优化问题通常不能生成有效的分割，它会将图中的一个点与其余

n−1 $n-1$ 个点分割开来，如下图所示，导致图的分割不均衡。

解决该问题的有效办法是让每个子图都有合理的大小，子图大小的度量方式不同就会得出不同的最小分割问题，常用的两种方法是RaioCut和Normalized Cut，分别如下：

RatioCut(A1,...,Ak)=12∑i=1kW(Ai,Ai¯¯¯¯)|Ai|=∑i=1kcut(Ai,Ai¯¯¯¯)|Ai| $RatioCut(A_1,...,A_k)=\dfrac{1}{2}\sum\limits_{i=1}^k\dfrac{W(A_i,\overline{A_i})}{|A_i|}=\sum\limits_{i=1}^k\dfrac{cut(A_i,\overline{A_i})}{|A_i|}$

Ncut(A1,...,Ak)=12∑i=1kW(Ai,Ai¯¯¯¯)vol(Ai)=∑i=1kcut(Ai,Ai¯¯¯¯)vol(Ai) $Ncut(A_1,...,A_k)=\dfrac{1}{2} \sum\limits_{i=1}^k \dfrac{W(A_i,\overline{A_i})}{vol(A_i)}=\sum\limits_{i=1}^k \dfrac{cut(A_i,\overline{A_i})}{vol(A_i)}$
这两个目标函数均将子图的大小作为分母，这样就可以使每个子图不会太小，其中RatioCut以子图中点的个数

|Ai| $|A_i|$ 作为子图大小的度量，Normalized Cut以子图内所有点的度的和作为子图大小的衡量，即

vol(Ai)=∑j∈Aidj $vol(A_i)=\sum\limits_{j \in A_i}d_j$ 。
下面我们分别讨论RatioCut和Normalized Cut是如何通过谱聚类来求解的。

2.2 求解RatioCut

首先从二聚类问题开始分析，其目标函数为最小化

RatioCut(A,A¯¯¯)=cut(A,A¯¯¯)(1|A|+1|A¯¯¯|) $RatioCut(A,\overline{A})=cut(A,\overline{A})(\dfrac{1}{|A|}+\dfrac{1}{|\overline{A}|})$
定义向量

f=(f1,...,fn)T∈Rn $f=(f_1,...,f_n)^T \in \mathbb{R}^n$ ，其每个元素的定义如下：

fi=⎧⎩⎨⎪⎪|A¯¯¯|/|A|−−−−−−√−|A|/|A¯¯¯|−−−−−−√ifvi∈Aifvi∈A¯¯¯ $f_i=\begin{cases} \sqrt{{|\overline{A}|}/{|A|}} & {if \quad v_i \in A} \\ -\sqrt{|A|/{|\overline{A}|}} & if \quad v_i \in \overline{A}\end{cases}$
结合图的Laplacian矩阵，我们可以得到RatioCut问题，推导过程如下：

${f^T}Lf = \dfrac{1}{2}\sum\limits_{i,j = 1}^n {{w_{ij}}{{\left( {{f_i} - {f_j}} \right)}^2}} \\= \dfrac{1}{2}\sum\limits_{i \in A,j \in \bar A} {{w_{ij}}{{\left( {\sqrt {\dfrac{{\left| {\bar A} \right|}}{{\left| A \right|}}} + \sqrt {\dfrac{{\left| A \right|}}{{\left| {\bar A} \right|}}} } \right)}^2}} + \dfrac{1}{2}\sum\limits_{i \in \bar A,j \in A} {{w_{ij}}{{\left( { - \sqrt {\dfrac{{\left| {\bar A} \right|}}{{\left| A \right|}}} - \sqrt {\dfrac{{\left| A \right|}}{{\left| {\bar A} \right|}}} } \right)}^2}} \\= \dfrac{1}{2}\sum\limits_{i \in A,j \in \bar A} {{w_{ij}}\left( {\dfrac{{\left| {\bar A} \right|}}{{\left| A \right|}} + \dfrac{{\left| A \right|}}{{\left| {\bar A} \right|}} + 2} \right)} + \dfrac{1}{2}\sum\limits_{i \in \bar A,j \in A} {{w_{ij}}\left( {\dfrac{{\left| {\bar A} \right|}}{{\left| A \right|}} + \dfrac{{\left| A \right|}}{{\left| {\bar A} \right|}} + 2} \right)} \\= \dfrac{1}{2}\left( {\sum\limits_{i \in A,j \in \bar A} {{w_{ij}}} + \sum\limits_{i \in \bar A,j \in A} {{w_{ij}}} } \right)\left( {\dfrac{{\left| {\bar A} \right|}}{{\left| A \right|}} + \dfrac{{\left| A \right|}}{{\left| {\bar A} \right|}} + 2} \right)\\ = cut\left( {A,\bar A} \right)\left( {\dfrac{{\left| {\bar A} \right| + \left| A \right|}}{{\left| A \right|}} + \dfrac{{\left| A \right| + \left| {\bar A} \right|}}{{\left| {\bar A} \right|}}} \right)\\= \left| V \right|cut\left( {A,\bar A} \right)\left( {\dfrac{1}{{\left| A \right|}} + \dfrac{1}{{\left| {\bar A} \right|}}} \right) \\= \left| V \right|RatioCut\left( {A,\bar A} \right)$
其中， $|V|$ 表示所有点的个数，给定样本点后， $|V|$ 是个常数。
因为，求解RatioCut问题可以转变为最小化 $f^TLf$ 的问题，其中 $f$ 的取值如上面所定义，然而，该离散优化问题是NP-hard，因此，我们将其进行松弛，使 $f_i$ 能够取任意实数。同时，为了和原问题尽量保持一致，我们加入 $f$ 的两个约束， $f \perp \overrightarrow{1}$ 和 $\|f\|=\sqrt{n}$ ，这两个约束可从 $f$ 的定义得到。最后，二聚类问题就转化成了有约束的优化问题：

minf∈RnfTLfs.t.f⊥1→,∥f∥=n−−√ $\underset{f \in \mathbb{R}^n}{min} f^TLf \\s.t. \quad f \perp \overrightarrow{1}, \|f\|=\sqrt{n}$
根据Rayleigh-Ritz定理可知，该问题的解为Laplacian矩阵

L $L$ 的最小特征值所对应的特征向量，由于

L $L$ 的最小特征值为

0 $0$ ，对应的特征向量为常数向量

1 $1$ ，不满足约束条件，因此，应取第

2 $2$ 小的特征值所对应的特征向量。
求解上述优化问题后，要将数据集分为

2 $2$ 个簇，我们可简单地采取如下的方式：

{v i \in A v i \in (¯ A) if f i \geq 0 if f i < 0

$\begin{cases} v_i \in A & {\text{if} \quad f_i \geq 0} \\ v_i \in \overline(A) & {\text{if} \quad f_i < 0} \end{cases}$ 上述的二聚类问题可以很容易地推广到

k $k$ 聚类问题，如果将一个数据集分为

k $k$ 个子集

Ai,...,Ak $A_i,...,A_k$ ，首先定义

k $k$ 个示性向量

H=(h1,...,hk)T $H=(h_1,...,h_k)^T$ ，其中

hij={1/|Aj|−−−−√0ifvi∈Ajotherwise,i=1,...,n;j=1,...,k $h_{ij} =\begin{cases} 1/\sqrt{|A_j|} & \text{if} \quad v_i \in A_j \\ 0 & otherwise\end{cases} , \quad i = 1,...,n; j = 1,...,k$

由该定义可知， $H$ 的列相互正交，即 $H^TH=I$ 。类似上面的推导（此处不再给出详细过程）：

hTjLhj=cut(Aj,Aj¯¯¯¯)|Aj| $h_j^TLh_j=\dfrac{cut(A_j,\overline{A_j})}{|A_j|}$
此外，

hTjLhj=(HTLH)jj $h_j^TLh_j =(H^TLH)_{jj}$ ，因此

RatioCut(A1,...,Ak)=∑j=1khTjLhj=∑j=1k(HTLH)jj=Tr(HTLH) $RatioCut(A_1,...,A_k)=\sum\limits_{j=1}^k h_j^TLh_j = \sum\limits_{j=1}^k (H^TLH)_{jj} = Tr(H^TLH)$
所以，多聚类的RatioCut问题可以转化为最小化

Tr(HTLH) $Tr(H^TLH)$ 的问题，

H $H$ 的取值如上面所定义。同样，我们将该NP-hard问题松弛，使

H $H$ 的元素取任意实数，松弛问题就变为：

minH∈Rn×kTr(HTLH),s.t.HTH=I $\underset{H \in \mathbb{R}^{n\times k}}{min} Tr(H^TLH), \quad s.t. \quad H^TH = I$
这是标准的迹最小化问题，其解为

L $L$ 的的前

k $k$ 个特征向量所构成的矩阵。最后采用k-means方法对该矩阵的行进行聚类，就可以实现对该数据集的

k $k$ 聚类。

2.3 求解Normalized Cut

类似于RatioCut，下面我们简要给出Normalized Cut的实现过程。
首先分析二聚类的情况，定义示性函数如下：

fi=⎧⎩⎨⎪⎪vol(A¯¯¯)/vol(A)−−−−−−−−−−−√−vol(A)/vol(A¯¯¯)−−−−−−−−−−−√ifvi∈Aifvi∈A¯¯¯ $f_i=\begin{cases} \sqrt{vol(\overline{A})/vol(A)} & \text{if} \quad v_i \in A \\ -\sqrt{vol(A)/vol(\overline{A})} & \text{if} \quad v_i \in \overline{A} \end{cases}$
按照该定义，

f $f$ 具有性质

(Df)T1→=0 $(Df)^T \overrightarrow{1}=0$ 和

fTDf=vol(V) $f^TDf = vol(V)$ ，并且可以证明

fTLf=vol(V)Ncut(A,A¯¯¯) $f^TLf = vol(V)Ncut(A,\overline{A})$ ，加上松弛条件，使

f $f$ 可以取任意实数向量，Normalized Cut可以转化成有约束的优化问题

minf∈RnfTLf,s.t.Df⊥1→,fTDf=vol(V) $\underset{f \in \mathbb{R}^n}{min}f^TLf, \quad s.t. \quad Df \perp \overrightarrow{1}, \quad f^TDf = vol(V)$
该问题需要求解广义特征向量问题

Lf=λDf $Lf = \lambda Df$ ，

f $f$ 取

L $L$ 的第二小的广义特征值对应的特征向量。
再扩展到

k $k$ 聚类问题，定义

k $k$ 个示性向量

H=(h1,...,hk)T $H = (h_1,...,h_k)^T$ ，其中

hij={1/vol(Aj)−−−−−−√0ifvi∈Ajotherwise,i=1,...,n;j=1,...,k $h_{ij} = \begin{cases} 1/\sqrt{vol(A_j)} & \text{if} \quad v_i \in A_j \\ 0 & otherwise\end{cases}, \quad i = 1,...,n; j = 1,...,k$
按照该定义，

H $H$ 具有性质

hTjDhj=1 $h_j^T D h_j=1$ ，那么

HTDH=I $H^TDH=I$ ，并且可以证明

hTjLhj=cut(Aj,Aj¯¯¯¯)/vol(Aj) $h_j^T L h_j=cut(A_j,\overline{A_j})/vol(A_j)$
因此，

Ncut(A1,...,Ak)=Tr(HTLH) $Ncut(A_1,...,A_k)=Tr(H^T L H)$ ，加上松弛条件，使

H $H$ 的元素可以取任意实数，Normalized Cut就可以转化为如下有约束的优化问题：

minH∈Rn×kTr(HTLH)s.t.HTDH=I $\underset{H \in \mathbb{R}^{n \times k}}{min} Tr(H^TLH) \quad s.t. \quad H^TDH = I$
该问题的解为广义特征值问题

Lh=λDh $Lh = \lambda Dh$ 的前

k $k$ 个特征向量所构成的矩阵。最后采用k-means方法对该矩阵的行进行聚类，就可以实现对该数据集的

k $k$ 聚类。

2.4 小结

针对以上两种图分割方法，谱聚类算法的步骤如下：
Step1：将每个样本看做图的顶点，构造无向加权图；
Step2：计算图的邻接矩阵W和拉普拉斯矩阵L；
Step3：根据图的分割准则计算拉普拉斯矩阵的前k个特征向量；
Step4：将拉普拉斯矩阵的前k个特征向量构成矩阵Y，把Y的每一行看做一个样本，然后用k-means方法对Y进行聚类。

3. 总结

谱聚类相当于先进行非线性降维，使原始数据点能够线性可分，最后再使用k-means聚类就可以得到比较好的聚类效果。
谱聚类算法也存在以下几点不足：
（1）谱聚类的松弛条件是对原问题的一个近似，但是并不能保证该近似是合适的，其误差有可能非常大，而且导致聚类问题不稳定；
（2）构造相似度矩阵的尺度参数根据经验设定，尺度参数的选择对聚类效果影响较大；
（3）同其他聚类方法一样，聚类数目的选择难以确定；
（4）根据图最小分割的目标函数可知，谱聚类适用于均衡分类问题，即各簇之间点的个数相差不大，对于簇之间点个数相差悬殊的聚类问题，谱聚类则不适用。
以下一组图均为采用谱聚类方法进行聚类的结果，左侧一列的数据点个数分布比较均衡，聚类效果比较好，可以看出，右侧一列数据点的分布不均衡，谱聚类算法仍然将数据分成几个均衡的簇，而不能体现数据的分布结构。

jteng

关注

12
点赞
踩
41

收藏

觉得还不错? 一键收藏
5
评论
谱聚类算法详解

谱聚类（Spectral Clustering）算法简单易行，其聚类性能优于传统的K-means算法。谱聚类将数据的划分转化为对图的分割，是一种基于图论的聚类方法，其直观理解为根据图内点的相似度将图分为多个子图，使子图内部的点相似度最高，子图之间点的相似度最低。1. 图论基础1.1 图的表示记G=(V,E)G = (V, E)表示一个无向加权图，VV表示所有顶点的集合V={v1,...,v
复制链接

扫一扫