谱聚类算法讲解

最新推荐文章于 2024-07-14 08:24:00 发布

Pan310762957

最新推荐文章于 2024-07-14 08:24:00 发布

阅读量2.1k

点赞数

分类专栏：数据挖掘算法文章标签：算法谱聚类

本文链接：https://blog.csdn.net/Pan310762957/article/details/53024729

版权

什么是谱聚类？

聚类的直观解释是根据样本间相似度，将它们分成不同组。谱聚类的思想是将样本看作顶点，样本间的相似度看作带权的边，从而将聚类问题转为图分割问题：找到一种图分割的方法使得连接不同组的边的权重尽可能低（这意味着组间相似度要尽可能低），组内的边的权重尽可能高（这意味着组内相似度要尽可能高）。根据相似度将这些顶点连起来，最后进行分割。分割后还连在一起的顶点就是同一类了。

谱聚类算法将聚类问题转化为一个无向图的多路划分问题，数据点看成无向图G(V,E)中的顶点V，加权边的集合E={Sij}表示基于某一点相似性度量的两点间的相似度，用S表示待聚类数据点之间的相似性矩阵，图G中把聚类问题转变为在图G上的图划分问题，即将图G(V,E)划分为K个互不相交的子集Ｖ１，Ｖ２，．．．Ｖｋ，划分后每个子集Ｖｉ和Ｖｊ之间的相似程度较低，每个子集内部相似度较高。

记G=(V,E)表示一个无向加权图，V表示所有顶点的集合V={v1,...,vn}，E表示所有边的集合，并且任意两点vi和vj的边具有非负权值wij≥0。图的邻接矩阵为W=(wij)i,j=1,...,n，如果wij=0则表示点vi和vj之间没有连接。由于G为无向图，所以其邻接矩阵具有对称性，即wij=wij。图中任一点vi的度为di=∑nj=1wij，表示一个点与其他所有点的连接情况，图的度矩阵D为每个点的度所构成的对角矩阵D=diag{d1,...,dn}。

以图像样本数据为例:

谱聚类算法将图像中的每个像素看成一个无向图的顶点，像素与像素之间的相似性看成是这个无向图的边，通过最优目标函数来分割这个无向图。

谱聚类算法还需要计算样本点之间的相似度，计算相似度的公式成为距离公式，有所有样本之间的相似度构成的矩阵，被称为相似矩阵。

设某个提取的样本为X，样本点的个数为n（n个顶点的无向完全图）,我们可以根据距离公式来计算出各点之间的相似度，距离公式一般有以下几个：

在图像分割中，最常用的是欧式距离，不同的距离公式有自身的特点，可以得到不同的效果。

所有样本之间的相似度构成的矩阵被称为相似矩阵W，如下所示：

谱聚类的思想就是要转化为图分割问题。因此，第一步就是将原问题转化为图。转为图有两个问题要解决：一是两个顶点的边要怎样定义；二是要保留哪些边。

对于第一个问题，如果两个点在一定程度上相似，就在两个点之间添加一条边。相似的程度由边的权重表示。因此，只要是计算相似度的公式都可用。

要保留部分边的原因有：边太多了不好处理；权重太低的边是多余的。

样本数据转化成图以后再求出样本无向完全图对应的矩阵，前面已经介绍了。接下来就是谱聚类中如何来处理矩阵模型（就是图的划分）

谱聚类中图的划分准则：

谱聚类算法的思想来源于谱图划分，假定将每个数据样本看作图中的顶点V，根据样本间的相似度将顶点间的边E赋权重值W，这样就得到一个基于样本相似度的无项加权图G=（V,E）。那么在图G中就可将聚类问题转化为在图G上的图划分问题。