拉普拉斯矩阵_方法总结 | 谱聚类方法推导和对拉普拉斯矩阵的理解

本文深入探讨了拉普拉斯矩阵在谱聚类算法中的作用,通过无向图、度、子图连接权等概念,解释了Normalized Cut的提出和解决孤立节点问题。文章详细推导了从最小割问题到Normalized Cut,再到拉普拉斯矩阵的特征值分解,阐述了如何利用谱分析进行图的划分。拉普拉斯矩阵的性质及其在图表示中的物理意义也被详细讨论。
摘要由CSDN通过智能技术生成

谱聚类可以看作是基于图的一种聚类方法,在各大论坛有许多介绍谱聚类算法的博客,但是在看的过程中,总是会存在各种各样的困惑,尤其是拉普拉斯矩阵的引入等一些列问题上介绍的不是很清楚。这里基于 Ncut 文章中的推导,给出谱聚类算法的一个整体的推导过程和一些重要细节。

首先有必要简单介绍一些图的基本知识,为了尽可能的简单,我们仅仅介绍必要的概念:

无向图定义:

定义图无向图 1c598814-ff3d-eb11-8da9-e4434bdf6706.svg ,其中, 1d598814-ff3d-eb11-8da9-e4434bdf6706.svg 为图中的顶点, 1f598814-ff3d-eb11-8da9-e4434bdf6706.svg 为图中的边, 21598814-ff3d-eb11-8da9-e4434bdf6706.svg 为边上权值构成的矩阵。举个栗子: 

9d63b91b20e247080b7cfc56d9ed5345.png

对这样的一幅图,如果我们认为连接的节点的权值是 23598814-ff3d-eb11-8da9-e4434bdf6706.svg ,没有连接的节点的权值为 24598814-ff3d-eb11-8da9-e4434bdf6706.svg ,则此时我们可以得到一个权值矩阵:  

0cead2203dfdcbec8a46cbc12644d7c7.png

其中红色数字表示节点的标号,图中的每一行和每一列是对称的,他们都反映了该节点与其他节点的连接情况。

度:

定义顶点的度为该顶点与其他顶点连接权值之和:

26598814-ff3d-eb11-8da9-e4434bdf6706.svg

度矩阵 27598814-ff3d-eb11-8da9-e4434bdf6706.svg 为对角矩阵,上面图对对应的度矩阵为:  

276286654b502807068e08dd2ffb7e7a.png

子图和子图的连接权

我们可以将上面的图划分成两个子图,如下图所示:  

定义 29598814-ff3d-eb11-8da9-e4434bdf6706.svg 和  2a598814-ff3d-eb11-8da9-e4434bdf6706.svg 是图  2b598814-ff3d-eb11-8da9-e4434bdf6706.svg 中两个不相交的子图,则定义子图的连接权值:

2c598814-ff3d-eb11-8da9-e4434bdf6706.svg

8a0d5891fd3a65acf9b50ce387478b08.png

对于上面的图,我们希望通过一种最优的划分将其分为两个部分,实际上 29598814-ff3d-eb11-8da9-e4434bdf6706.svg 和 2a598814-ff3d-eb11-8da9-e4434bdf6706.svg 两个子图的划分就是一种最优的划分:  

1729386daa3e8ee676532efda55aaf12.png

    我们定义这样的划分满足 31598814-ff3d-eb11-8da9-e4434bdf6706.svg 最小。当图中有 32598814-ff3d-eb11-8da9-e4434bdf6706.svg 个节点,有  33598814-ff3d-eb11-8da9-e4434bdf6706.svg 个类别的情况,我们希望:

34598814-ff3d-eb11-8da9-e4434bdf6706.svg

    这样的一个图划分问题称为最小割问题。然而在实际中,基于最割理论并不能很好的实现划分,这是因为,当仅仅依赖最小割的划分方法的话,在对图进行划分时倾向于将图中的孤立的节点划分成一类。其实这也非常容易理解,因为最小割的定义35598814-ff3d-eb11-8da9-e4434bdf6706.svg 实际上是与两个子图之间的连接边的数量是正相关的,也就是说连接边的数量越多,该值越大。在对图划分的时候,任何一个对孤立节点的划分都会小于对该节点所在类的一个更大的子图的划分的 36598814-ff3d-eb11-8da9-e4434bdf6706.svg 值,所以在在该目标函数下容易产生孤立点的划分结果。

聚类的定义: 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据划分成多个类别,使得类别内数据相似度较大而类别间的数据相似度较小。

Normalized cut

    针对这个问题, Normalized Cuts and Image Segmentation 中提出了 Normalized Cut,定义如下: 38598814-ff3d-eb11-8da9-e4434bdf6706.svg

其中 39598814-ff3d-eb11-8da9-e4434bdf6706.svg 。也就是说,在计算每一类的割的时候,Normalized Cut 考虑的是每类割占该类所有节点到图中所有节点连接之和的比例。此时我们分析两类的情况,考虑边上权值为简单的 3b598814-ff3d-eb11-8da9-e4434bdf6706.svg ,上式子可以写为:

3c598814-ff3d-eb11-8da9-e4434bdf6706.svg 
这时我们可以假设 2a598814-ff3d-eb11-8da9-e4434bdf6706.svg 类为一个孤立节点,此时  3e598814-ff3d-eb11-8da9-e4434bdf6706.svg 为除了与 2a598814-ff3d-eb11-8da9-e4434bdf6706.svg 中节点有连接的所有边和,而 40598814-ff3d-eb11-8da9-e4434bdf6706.svg ,当图的规模比较大时,此时 41598814-ff3d-eb11-8da9-e4434bdf6706.svg 。不再是该目标函数所能取得

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值