小白学习机器学习===非监督学习之谱聚类详细推导

一、谱聚类的演算(一)、演算1、谱聚类概览       谱聚类演化于图论,后由于其表现出优秀的性能被广泛应用于聚类中,对比其他无监督聚类(如kmeans),spectral clustering的优点主要有以下:1.过程对数据结构并没有太多的假设要求,如kmeans则要求数据为凸集。2.可以通过构造稀疏similarity graph,使得对于更大的数据集表现出明显优于其他算法的计算速度3.由于s...
摘要由CSDN通过智能技术生成

一、谱聚类的演算

(一)、演算


1、谱聚类概览

       谱聚类演化于图论,后由于其表现出优秀的性能被广泛应用于聚类中,对比其他无监督聚类(如kmeans),spectral clustering的优点主要有以下:

1.过程对数据结构并没有太多的假设要求,如kmeans则要求数据为凸集。

2.可以通过构造稀疏similarity graph,使得对于更大的数据集表现出明显优于其他算法的计算速度

3.由于spectral clustering是对图切割处理,不会存在像kmeans聚类时将离散的小簇聚合在一起的情况。

4.无需像GMM一样对数据的概率分布做假设

       同样,spectral clustering也有自己的缺点,主要存在于构图步骤,有如下:

1.对于选择不同的similarity graph比较敏感(如 epsilon-neighborhood, k-nearest neighborhood,  full connected 等)

2.对于参数的选择也比较敏感(如epsilon-neighborhood的epsilon,k-nearest neighborhood的k)

       谱聚类过程主要有两步,第一步是构图,将采样点数据构造成一张网图,表示为G(V,E),V表示图中的点,E表示点与点之间的边,如下图: 
              谱聚类构图 
                            图1 谱聚类构图(来源wiki) 
       第二步是切图,即将第一步构造出来的按照一定的切边准则,切分成不同的图,而不同的子图,即我们对应的聚类结果,举例如下: 
              切图4 
                            图2 谱聚类切图 
       初看似乎并不难,但是…,下面详细说明推导。 

2、谱聚类构图

       在构图中,一般有三种构图方式: 

       1. ε -neighborhood 
       2. k-nearest neighborhood 
       3. fully connected 

       前两种可以构造出稀疏矩阵,适合大样本的项目,第三种则相反,在大样本中其迭代速度会受到影响制约,在讲解三种构图方式前,需要引入similarity function,即计算两个样本点的距离,一般用欧氏距离:

                                                  

Si,j表示样本点xixj的距离,或者使用高斯距离

                                               

其中σ 的选取也是对结果有一定影响,其表示为数据分布的分散程度,通过上述两种方式之一即可初步构造矩阵S:Si,j=[s]i,j,一般称 为Similarity matrix(相似矩阵)。 

       对于第一种构图ε-neighborhood,顾名思义是取si,jε的点,则相似矩阵S可以进一步重构为邻接矩阵(adjacency matrix)W:

                                            

       可以看出,在 ε -neighborhood重构下,样本点之间的权重没有包含更多的信息了。 
       对于第二种构图k-nearest neighborhood,其利用KNN算法,遍历所有的样本点,取每个样本最近的k个点作为近邻,但是这种方法会造成重构之后的邻接矩阵 W 非对称,为克服这种问题,一般采取下面两种方法之一: 
       一是只要点 Xi Xj 的K个近邻中或者 Xj 在X i 的K个近邻中,则保留 Si,j ,并对其做进一步处理 W ,此时 为: 


       二是必须满足点 Xi在 Xj的K个近邻中且 Xj在 Xi的K个近邻中,才会保留 Si,j 并做进一步变换,此时 W 为: 


       对于第三种构图fully connected,一般使用高斯距离: ,则重构之后的矩阵 W 与之前的相似矩阵 S 相同,为: Wi,j=Si,j=[s]i,j 。 
       在了解三种构图方式后,还需要注意一些细节,对于第一二中构图,一般是重构基于欧氏距离的 ,而第三种构图方式,则是基于高斯距离的 ,注意到高斯距离的计算蕴含了这样一个情况:对于 欧式距离结果比较大的样本点 ,其得到的高斯距离反而值是比较小的,而这也正是 S 可以直接作为
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值