小白学习机器学习===非监督学习之谱聚类详细推导

最新推荐文章于 2023-11-23 21:01:51 发布

hx14301009

最新推荐文章于 2023-11-23 21:01:51 发布

阅读量2.2k

点赞数 1

本文链接：https://blog.csdn.net/hx14301009/article/details/80203717

版权

一、谱聚类的演算（一）、演算1、谱聚类概览谱聚类演化于图论，后由于其表现出优秀的性能被广泛应用于聚类中，对比其他无监督聚类（如kmeans），spectral clustering的优点主要有以下：1.过程对数据结构并没有太多的假设要求，如kmeans则要求数据为凸集。2.可以通过构造稀疏similarity graph，使得对于更大的数据集表现出明显优于其他算法的计算速度3.由于s...

摘要由CSDN通过智能技术生成

一、谱聚类的演算

（一）、演算

1、谱聚类概览

谱聚类演化于图论，后由于其表现出优秀的性能被广泛应用于聚类中，对比其他无监督聚类（如kmeans），spectral clustering的优点主要有以下：

1.过程对数据结构并没有太多的假设要求，如kmeans则要求数据为凸集。

2.可以通过构造稀疏similarity graph，使得对于更大的数据集表现出明显优于其他算法的计算速度

3.由于spectral clustering是对图切割处理，不会存在像kmeans聚类时将离散的小簇聚合在一起的情况。

4.无需像GMM一样对数据的概率分布做假设

同样，spectral clustering也有自己的缺点，主要存在于构图步骤，有如下：

1.对于选择不同的similarity graph比较敏感(如 epsilon-neighborhood， k-nearest neighborhood, full connected 等)

2.对于参数的选择也比较敏感(如epsilon-neighborhood的epsilon，k-nearest neighborhood的k)

       谱聚类过程主要有两步，第一步是构图，将采样点数据构造成一张网图，表示为G(V,E)，V表示图中的点，E表示点与点之间的边，如下图：

                            图1 谱聚类构图(来源wiki)
       第二步是切图，即将第一步构造出来的按照一定的切边准则，切分成不同的图，而不同的子图，即我们对应的聚类结果，举例如下：
               切图4
                            图2 谱聚类切图
       初看似乎并不难，但是…，下面详细说明推导。

2、谱聚类构图

在构图中，一般有三种构图方式：

1. ε -neighborhood

2. k-nearest neighborhood
3. fully connected

前两种可以构造出稀疏矩阵，适合大样本的项目，第三种则相反，在大样本中其迭代速度会受到影响制约，在讲解三种构图方式前，需要引入similarity function，即计算两个样本点的距离，一般用欧氏距离：

Si,j表示样本点xi与xj的距离，或者使用高斯距离

其中σ 的选取也是对结果有一定影响，其表示为数据分布的分散程度，通过上述两种方式之一即可初步构造矩阵S:Si,j=[s]i,j，一般称为Similarity matrix(相似矩阵)。

对于第一种构图ε-neighborhood，顾名思义是取si,j≤ε的点，则相似矩阵S可以进一步重构为邻接矩阵(adjacency matrix)W:

可以看出，在 ε -neighborhood重构下，样本点之间的权重没有包含更多的信息了。

对于第二种构图k-nearest neighborhood，其利用KNN算法，遍历所有的样本点，取每个样本最近的k个点作为近邻，但是这种方法会造成重构之后的邻接矩阵 W 非对称，为克服这种问题，一般采取下面两种方法之一：

一是只要点 Xi 在 Xj 的K个近邻中或者 Xj 在X i 的K个近邻中，则保留 Si,j ，并对其做进一步处理 W ，此时为：

二是必须满足点 Xi在 Xj的K个近邻中且 Xj在 Xi的K个近邻中，才会保留 Si,j 并做进一步变换，此时 W 为：

对于第三种构图fully connected，一般使用高斯距离：

，则重构之后的矩阵 W 与之前的相似矩阵 S 相同，为： Wi,j=Si,j=[s]i,j 。

在了解三种构图方式后，还需要注意一些细节，对于第一二中构图，一般是重构基于欧氏距离的，而第三种构图方式，则是基于高斯距离的，注意到高斯距离的计算蕴含了这样一个情况：对于欧式距离结果比较大的样本点，其得到的高斯距离反而值是比较小的，而这也正是 S 可以直接作为

最低0.47元/天解锁文章

hx14301009

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
小白学习机器学习===非监督学习之谱聚类详细推导

一、谱聚类的演算（一）、演算1、谱聚类概览谱聚类演化于图论，后由于其表现出优秀的性能被广泛应用于聚类中，对比其他无监督聚类（如kmeans），spectral clustering的优点主要有以下：1.过程对数据结构并没有太多的假设要求，如kmeans则要求数据为凸集。2.可以通过构造稀疏similarity graph，使得对于更大的数据集表现出明显优于其他算法的计算速度3.由于s...
复制链接

扫一扫