谱聚类的理解

感谢:

    https://www.zybuluo.com/frank-shaw/note/117235

    A tutorial on spectral clustering,Ulrike von Luxburg, 2007

背景:

    聚类是数据分析的常用技术,人们为了获得对数据的第一印象,尝试
着去辨别每一组的行为相似性。谱聚类是聚类算法的一个大家族, 它通
过线性代数的优化可以比较高效的分类, 相比传统的聚类算法, 如kme-
ans,谱聚类通常有更好的效果。

图的定义:



几种相似度图的构造方法:




三种相似度矩阵的聚类效果:








关于如何选择相似度函数:


    谱聚类的结果对相似图挺敏感的,而上面求相似度的方法中k和 ,以及
是比较难去选择的,需要根据带处理的数据来进行尝试选择更合理的值。

拉普拉斯矩阵和它的性质:

     注意,我们在讲各种拉普拉斯矩阵的时候,都叫拉普拉斯矩阵。

非归一化的拉普拉斯矩阵

    定义:


它有如下的性质:


为什么拉普拉斯矩阵的0特征值个数,表示图的连通个数?论文的解释:

首先举例K = 1,这个图是连通的。我们假定 f 特征向量对应的特征值是0.
我们知道




我们拿论文中的一个例子来说吧,一个玩具数据集包含了4个不同的高斯分布组成的200个样本点。


第一行是基于10-近邻图 和 非归一化拉普拉斯矩阵
第二行是基于高斯核函数得到的是一个完全图(单连通,区分度是边权值) 和 非归一化拉普拉斯矩阵


1、看第一行的图,红圈圈住的部分他们的值都比较相近(可以理解为在这个维度方差比较小),我们在看统计直方图,他们在同一个社区中。
2、看第二行的图,第一个特征值为0,对应的特征向量,每个值相同且是一个常量。 因为高斯核得到的是一个完全图,所以是一个带权的单连通图。
     第一个特征向量是反映了拉普拉斯矩阵的,0特征向量个数与连通组件个数相同的性质。 后面的三个图则携带了四个社区的一些特性,
     看四个红圈中的线,波动是比较小的。不同的圈之间是存在相对较大的波动的。

总结 : 看上面两个图中前四个最小特征值对应的特征向量,同一社区在不同的维度均表现相似,而不同社区的点,在不同维度存在差异。

正规化的拉普拉斯矩阵的性质


正规化拉普拉斯矩阵的一些性质:




拉普拉斯算法的伪代码:


非正规化谱聚类:


基于随机游走的正规化拉普拉斯矩阵的谱聚类


基于对称拉正规化普拉斯矩阵的谱聚类


从图分割的角度来看待谱聚类





  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值