谱聚类可以看作是基于图的一种聚类方法,在各大论坛有许多介绍谱聚类算法的博客,但是在看的过程中,总是会存在各种各样的困惑,尤其是拉普拉斯矩阵的引入等一些列问题上介绍的不是很清楚。这里基于 Ncut 文章中的推导,给出谱聚类算法的一个整体的推导过程和一些重要细节。
首先有必要简单介绍一些图的基本知识,为了尽可能的简单,我们仅仅介绍必要的概念:
无向图定义:
定义图无向图
对这样的一幅图,如果我们认为连接的节点的权值是
其中红色数字表示节点的标号,图中的每一行和每一列是对称的,他们都反映了该节点与其他节点的连接情况。
度:
定义顶点的度为该顶点与其他顶点连接权值之和:
度矩阵
子图和子图的连接权
我们可以将上面的图划分成两个子图,如下图所示:
定义
的子图,则定义子图的连接权值:
从图割问题到谱聚类
对于上面的图,我们希望通过一种最优的划分将其分为两个部分,实际上
我们定义这样的划分满足
这样的一个图划分问题称为最小割问题。然而在实际中,基于最割理论并不能很好的实现划分,这是因为,当仅仅依赖最小割的划分方法的话,在对图进行划分时倾向于将图中的孤立的节点划分成一类。其实这也非常容易理解,因为最小割的定义
聚类的定义: 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据划分成多个类别,使得类别内数据相似度较大而类别间的数据相似度较小。
Normalized cut
针对这个问题, Normalized Cuts and Image Segmentation 中提出了 Normalized Cut,定义如下:
其中
这时我们可以假设
给定图
令
注意:
则上式可化为:
令:
则:
在最小化的过程中可以将常数项去掉,也就是
令
此时令
则最终,我们有:
且满足
其中
注意: 这里实际上已经有了一个近似,在我们通过函数来求解最小值的时候已经不在原始的离散空间中,而是在实数空间中。
则对上式求导,令导
这时我们可以发现这个式子实际上就是对
其中
(1) 最小特征值
(2) 根据正交性有
根据瑞利熵的一个性质:
对于实对称矩阵,则的最小值在其最小的非特征值对应的特征向量上取得。
根据以上叙述,我们知道
则:
此时第二小的特征向量便是我们所求目标函数在实数域上的解。如果是
另一个问题,虽然我们已经得到了实数域上目标函数的最优解,但是我们如何能够确定图的划分呢?以两类为例,我们得到的特征向量中的每个值在离散域上实际上只能够取
谱
在上面整个方法的介绍中我们发现在并没有介绍谱的概念,我们依旧可以推导出谱聚类算法。但是我们实际上已经用到了谱的形式,实际上矩阵
当我们提到 “谱” 这个概念的时候,都会感觉十分难以理解。而实际上我们可以简单的认为 谱 实际上就是对一个信号(视频,音频,图像,图)分解为一些简单元素的线性组合(小波基,图基)。而为了使得这种分解更加有意义,我们可以使得这些分解的元素之间是线性无关的的(正交的)。也就是说这些分解的简单元素可以看作是信号的基。
在信号处理中我们最容易想到的谱就是傅里叶变换,它提供了不同频率下的正弦和余弦波作为基,从而我们可以将信号在这些基进行分解。但是当我们讨论图的时候,我们所称的 “谱”指的是对拉普拉斯矩阵
谱的定义:将方阵(矩阵)作为线性算子,它的所有的特征值的全体统称为方阵的谱。定义谱半径为该方阵最大的特征值。 栗子:如果我们有一般矩阵
图拉普拉斯矩阵和一些它的物理意义:
图拉普拉斯矩阵,如果把它看作线性变换的话,它起的作用与分析中的拉普拉斯算子是一样的。,我们将在下面详细讨论,这里需要一些基本的知识:
梯度(矢量) :梯度 “” 的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该方向处沿着该方向(此梯度方向)变化最快,变化率最大(为该梯度的模)。
假设一个三元函数
为函数
在点
称为(三维)向量的微分算子或 Nabla 算子。
散度(标量) 散度 "" (divergence)可用于表针空间中各点矢量场发散的强弱程度,物理上,散度的意义是长的有源性。当,表示该点有散发通量的正源(发散源);当表示该点有吸收能量的负源(洞或汇);当,表示该点无源。
散度是作用在向量场上的一个算子。用三维空间举例,向量场就是在空间中每一点处都对应一个三维向量的向量函数:
它是一个标量函数(场),也就是说,在定义空间中每一点的散度是一个值。矢量 $V$ 的散度在笛卡尔坐标(直角坐标系)下的表达式:
拉普拉斯算子: 拉普拉斯算子(Laplace Operator)是维欧几里得空间中的一个二阶微分算子,定义为梯度()的散度()。
笛卡尔坐标系下的表示法:
离散函数的导数:
则我们可以将拉普拉斯算子也转化为离散形式(以二维为例)
其矩阵表示形式为:
我们现在将这个结论推广到图:
假设具有
此时以上定义的函数
对
我们上面已经知道拉普拉斯算子可以计算一个点到它所有自由度上微小扰动的增益,则通过图来表示就是任意一个节点
而如果边
由于当
继续推导有:
对于所有的
这里的
根据前面所述,拉普拉斯矩阵中的第
拉普拉斯矩阵的性质
推导:
正则拉普拉斯矩阵的定义及性质:
1)symmetric:
2) Random walk:
有如下性质:
1)如果
2)
参考:
小明教主:谈一谈拉普拉斯矩阵zhuanlan.zhihu.com