谱聚类（Spectral Clustering）

最新推荐文章于 2023-08-31 17:05:00 发布

梅mmmmm

最新推荐文章于 2023-08-31 17:05:00 发布

阅读量1.9k

点赞数 2

分类专栏：聚类文章标签：机器学习 clustering 聚类算法谱聚类算法

本文链接：https://blog.csdn.net/mei86233824/article/details/78770231

版权

聚类专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本文介绍谱聚类算法的基础知识，包括无向图的定义、相似度矩阵、邻接矩阵、度矩阵、Laplacian矩阵及其性质。同时，详细解释了谱聚类的基本原理，并通过RatioCut分割方法实现聚类，最后提供了使用sklearn.cluster.SpectralClustering的代码示例。

摘要由CSDN通过智能技术生成

谱聚类（Spectral Clustering）

本文技术来自“ A Tutorial on Spectral Clustering ”：

最近用到了谱聚类算法，在对谱聚类有了初步的了解之后打算写下这片文章作为笔记。

定义

无向图 $G=<V,E>$ ：V是由数据集构成的图的顶点；E为每条边的权值，也就是顶点之间的相似度，换句话说E是每两个数据集之间的相似度。
相似度矩阵。计算相似度，计算顶点之间的相似度。想用什么距离判断方法就用什么，只要符合数据的性质即可，如Nearest neighbors、高斯核函数等等。
邻接矩阵 $W$ (Adjacency Matrix)：子图 $A$ 和子图 $B$ 之间所有边的权值之和( $\omega_{ij}为顶点i到顶点j的权值,如果两个点不相邻,权值为0$ )：
$W (A, B) = \sum i \in A, j \in B ω i j$ $W(A,B)=\sum_{i\in A,j\in B}\omega_{ij}$
度矩阵(Degree Matrix) $D$ ：与顶点 $v_i$ 相连的所有边的权值累加和为该顶点的 $d$ (Degree)，由所有顶点 $v$ 构成的 $d$ 组合成度矩阵 $D$ (Degree Matrix):

$d i = \sum j = 1 n ω i j$ $d_i = \sum_{j=1}^{n}\omega_{ij}$

A Tutorial on Spectral Clustering 这片文章里称为 Degree Matrix，是图论里的概念，我不知道翻译为度矩阵是否准确。
Laplacian 矩阵 $L$ ： $L=D-W$
$Laplacian 矩阵性质为:$
$f' L f = 1 2 \sum i, j = 1 N ω i j (f i - f j) 2 ，$ $f'Lf=\frac12\sum_{i,j=1}^N\omega_{ij}(f_i - f_j)^2，$
其中 $f$ 为任意向量， $L=D-W，W(A,B)=\sum_{i\in A,j\in B}\omega_{ij}，d_i = \sum_{j=1}^{n}\omega_{ij}$
证明过程：
$f' L f = f' D f - f' W f = 1 2 (\sum i = 1 n d i f 2 i - 2 \sum i, j = 1 n f i f j ω i j - \sum j = 1 n d i f 2 j) = 1 2 \sum i, j = 1 N ω i j (f i - f j) 2$ $\begin{align} f'Lf&=f'Df-f'Wf\\ &=\frac12(\sum_{i=1}^nd_if_i^2-2\sum_{i,j=1}^nf_if_j\omega_{ij}-\sum_{j=1}^nd_if_j^2 )\\ &=\frac12\sum_{i,j=1}^N\omega_{ij}(f_i - f_j)^2 \end{align}$

谱聚类原理

目的：给定数据集 $X$ ，转化为图 $G=<V,E>$ ，将图 $G$ 划分为k个子图，使分割后的k个子图中各个子图之间顶点 $V$ 的相似度低，同一子图内顶点 $V$ 的相似度高。
分割方法：

$RatioCut$ (ﬁrst introduced by Hagen and Kahng, 1992)
$Normalized Cut$ (ﬁrst introduced by Shi and Malik, 2000)

$RatioCut$

1 确定目标函数

假设由数据集得到图 $G$ ，我们要把图 $G$ 划分为 $k$ 个子集，记做 $A_i, ..., A_k$ ，为了使分割后的 $k$ 个子图中各个子图之间顶点 $V$ 的相似度尽可能低，同一子图内顶点 $V$ 的相似度尽可能高，得目标函数：

cut(Ai,...,Ak)=12∑i=1kW(Ai,Ai⎯⎯⎯⎯)

Ai 表示第 i 个子图，Ai⎯⎯⎯⎯为 Ai 的补集， W(Ai,Ai⎯⎯⎯⎯) 表示子图 Ai 与其他所有子图（即 Ai⎯⎯⎯⎯ ）之间的所有边的权重之和（换言之，如果要分成 k 个组，那么其代价就是进行分割时去掉的边的权值的总和）。我们要最小化目标函数：

mincut(Ai,...,Ak)=min(12∑i=1kW(Ai,Ai⎯⎯⎯⎯))

此时有个问题：假设 k=2 ，目标函数 cut() 有可能会将图分成一个点和 n−1 个点的集合(即{ H },{A,B,C,D,E,F,G})，但{ A,B,C,H }, { D,E,F,G }反而是更理想的结果。（如下图所示）

图片来自http://www.cnblogs.com/sparkwen/p/3155850.html

针对上面问题，改进后的目标函数为：

RatioCut(Ai,...,Ak)=12∑i=1kW(Ai,Ai⎯⎯⎯⎯)|Ai⎯⎯⎯⎯|=12∑i=1kcut(Ai,Ai⎯⎯⎯⎯)|Ai⎯⎯⎯⎯|

其中|Ai⎯⎯⎯⎯|为子图Ai中顶点V的个数。
RatioCut 的原理很简单：如果某一子图中包含的顶点个数越少，那么该图的值就越大。也就解决了上述问题。

2 最小化目标函数

定义向量 $f_i= \begin{cases} \sqrt{\frac{|\overline{A_i}|}{|A_i|}}, & \text{if $v_i \in A$ } \\ -\sqrt{\frac{|\overline{A_i}|}{|A_i|}}, & \text{if $v_i \in \overline A$} \end{cases}$
由 $Laplacian$ 矩阵性质 $f'Lf=\frac12\sum_{i,j=1}^N\omega_{i,j}(f_i-f_j)^2得:$

f′Lf⇒2|V|⋅RatioCut(A,A⎯⎯⎯)

证明过程：

f′Lf=12∑i,j=1Nωi,j(fi−fj)2=12⎛⎝⎜⎜⎜∑i∈A,j∈A⎯⎯ωij⎛⎝⎜⎜|A⎯⎯⎯||A|‾‾‾√+|A||A⎯⎯⎯|‾‾‾√⎞⎠⎟⎟2+∑i∈A,j∈A⎯⎯ωij⎛⎝⎜⎜−|A⎯⎯⎯||A|‾‾‾√−|A||A⎯⎯⎯|‾‾‾√⎞⎠⎟⎟2⎞⎠⎟⎟⎟=cut(A,A⎯⎯⎯)(|A⎯⎯⎯||A|+|A||A⎯⎯⎯|+2)=cut(A,A⎯⎯⎯)(|A⎯⎯⎯|+|A||A|+|A⎯⎯⎯|+|A||A⎯⎯⎯|+2)=2|V|⋅RatioCut(A,A⎯⎯⎯)

大致上我们可得：

minRatioCut(A,A⎯⎯⎯)⇒minf′Lf⇒minL⇒minλ

即求得 Laplacian 矩阵的最小特征值 λ ,但 Laplacian 矩阵是半正定矩阵，最小特征值 λ 为 0 ，则根据 Rayleigh-Ritz 定理(e.g., see Section 5.5.2. of L¨utkepohl, 1997)取第二小特征值即可。

具体推导内容请看 A Tutorial on Spectral Clustering (https://arxiv.org/abs/0711.0189)

聚类过程

$1 \ 根据数据集构建图G=<V,E>$
$2 \ min \ Ratio Cut将图G分割为k个子图$
$3 \ 求得邻接矩阵W、度矩阵（Degree Matrix） D，得到 Laplacian 矩阵L$
$4\ 求L的前K个特征值及对应的特征向量（由小到大排列）$
$5\ 把k个特征向量组成 shape=N * k 矩阵$
$6\ 用k-means对矩阵进行聚类$

也就是利用拉普拉斯矩阵的特征值分析再利用 k-means 算法进行聚类。

代码

scikit 有相应的包：sklearn.cluster.SpectralClustering
# -*- coding: utf-8 -*-
from sklearn import cluster

spectral = cluster.SpectralClustering(n_clusters=CLUSTER_NUM,   
                eigen_solver='arpack',
                affinity="nearest_neighbors").fit(data)
spectral.labels_  # 得到列表，内容为 data 所对应簇的下标
具体内容请看官方文档：sklearn.cluster.SpectralClustering

Reference

[1]：Luxburg U V. A tutorial on spectral clustering[J]. Statistics & Computing, 2007, 17(4):395-416.
[2]：http://www.cnblogs.com/fengyan/archive/2012/06/21/2553999.html
[3]：http://www.cnblogs.com/sparkwen/p/3155850.html
[4]：http://blog.csdn.net/liu1194397014/article/details/52990015