谱聚类的理解

感谢:

    https://www.zybuluo.com/frank-shaw/note/117235

    A tutorial on spectral clustering,Ulrike von Luxburg, 2007

背景:

    聚类是数据分析的常用技术,人们为了获得对数据的第一印象,尝试
着去辨别每一组的行为相似性。谱聚类是聚类算法的一个大家族, 它通
过线性代数的优化可以比较高效的分类, 相比传统的聚类算法, 如kme-
ans,谱聚类通常有更好的效果。

图的定义:



几种相似度图的构造方法:




三种相似度矩阵的聚类效果:








关于如何选择相似度函数:


    谱聚类的结果对相似图挺敏感的,而上面求相似度的方法中k和 ,以及
是比较难去选择的,需要根据带处理的数据来进行尝试选择更合理的值。

拉普拉斯矩阵和它的性质:

     注意,我们在讲各种拉普拉斯矩阵的时候,都叫拉普拉斯矩阵。

非归一化的拉普拉斯矩阵

    定义:


它有如下的性质:


为什么拉普拉斯矩阵的0特征值个数,表示图的连通个数?论文的解释:

首先举例K = 1,这个图是连通的。我们假定 f 特征向量对应的特征值是0.
我们知道




我们拿论文中的一个例子来说吧,一个玩具数据集包含了4个不同的高斯分布组成的200个样本点。


第一行是基于10-近邻图 和 非归一化拉普拉斯矩阵
第二行是基于高斯核函数得到的是一个完全图(单连通,区分度是边权值) 和 非归一化拉普拉斯矩阵


1、看第一行的图,红圈圈住的部分他们的值都比较相近(可以理解为在这个维度方差比较小),我们在看统计直方图,他们在同一个社区中。
2、看第二行的图,第一个特征值为0,对应的特征向量,每个值相同且是一个常量。 因为高斯核得到的是一个完全图,所以是一个带权的单连通图。
     第一个特征向量是反映了拉普拉斯矩阵的,0特征向量个数与连通组件个数相同的性质。 后面的三个图则携带了四个社区的一些特性,
     看四个红圈中的线,波动是比较小的。不同的圈之间是存在相对较大的波动的。

总结 : 看上面两个图中前四个最小特征值对应的特征向量,同一社区在不同的维度均表现相似,而不同社区的点,在不同维度存在差异。

正规化的拉普拉斯矩阵的性质


正规化拉普拉斯矩阵的一些性质:




拉普拉斯算法的伪代码:


非正规化谱聚类:


基于随机游走的正规化拉普拉斯矩阵的谱聚类


基于对称拉正规化普拉斯矩阵的谱聚类


从图分割的角度来看待谱聚类





  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
谱聚类算法是一种常用的聚类算法,可以用于无监督学习和数据分析。在谱聚类算法中,首先构建数据点之间的相似度矩阵,然后对该矩阵进行特征值分解或拉普拉斯矩阵分解,最后通过KMeans等聚类算法将数据点划分为不同的簇。 谱聚类算法的优点是能够发现非常复杂的数据结构,对噪声数据有较好的鲁棒性,并且能够处理非球形和非凸形状的簇。谱聚类算法还可以避免传统聚类算法中的距离度量问题和簇的数目选择问题。此外,由于谱聚类算法在计算相似度矩阵时不需要事先确定各个数据点的簇归属,因此可以用于无监督学习。 CSDN是一个技术社区,提供了大量的软件、编程、开发等方面的资源和知识。在CSDN上,可以搜索到谱聚类算法的相关资料,并进行下载学习。CSDN上提供了很多从理论到实践的教程、博客和教学视频,可以帮助我们更好地理解和掌握谱聚类算法。 对于想要学习谱聚类算法的人来说,可以通过CSDN下载相关的代码和资料,进行学习和实践。可以找到一些开源的Python或MATLAB代码,也可以看到其他人的代码解析和实例应用。此外,在CSDN的技术问答社区中,我们还可以向其他热心的技术人员请教问题,获得更深入的理解和指导。 总之,CSDN是一个提供谱聚类算法相关资源和知识的平台,可以帮助我们更好地学习和应用谱聚类算法。通过下载相关资料和与其他技术人员交流,我们可以更好地理解算法原理,掌握谱聚类算法的应用技巧,提高数据分析和聚类的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值