谱聚类算法讲解

什么是谱聚类?

聚类的直观解释是根据样本间相似度,将它们分成不同组。谱聚类的思想是将样本看作顶点,样本间的相似度看作带权的边,从而将聚类问题转为图分割问题:找到一种图分割的方法使得连接不同组的边的权重尽可能低(这意味着组间相似度要尽可能低),组内的边的权重尽可能高(这意味着组内相似度要尽可能高)。根据相似度将这些顶点连起来,最后进行分割。分割后还连在一起的顶点就是同一类了。

谱聚类算法将聚类问题转化为一个无向图的多路划分问题,数据点看成无向图G(V,E)中的顶点V,加权边的集合E={Sij}表示基于某一点相似性度量的两点间的相似度,用S表示待聚类数据点之间的相似性矩阵,图G中把聚类问题转变为在图G上的图划分问题,即将图G(V,E)划分为K个互不相交的子集V,V,...Vk,划分后每个子集V和V之间的相似程度较低,每个子集内部相似度较高。

记G=(V,E)表示一个无向加权图,V表示所有顶点的集合V={v1,...,vn},E表示所有边的集合,并且任意两点vi和vj的边具有非负权值wij≥0。图的邻接矩阵为W=(wij)i,j=1,...,n,如果wij=0则表示点vi和vj之间没有连接。由于G为无向图,所以其邻接矩阵具有对称性,即wij=wij。图中任一点vi的度为di=∑nj=1wij,表示一个点与其他所有点的连接情况,图的度矩阵D为每个点的度所构成的对角矩阵D=diag{d1,...,dn}。

以图像样本数据为例:

  谱聚类算法将图像中的每个像素看成一个无向图的顶点,像素与像素之间的相似性看成是这个无向图的边,通过最优目标函数来分割这个无向图。

  谱聚类算法还需要计算样本点之间的相似度,计算相似度的公式成为距离公式,有所有样本之间的相似度构成的矩阵,被称为相似矩阵。

  设某个提取的样本为X,样本点的个数为nn个顶点的无向完全图),我们可以根据距离公式来计算出各点之间的相似度,距离公式一般有以下几个:


在图像分割中,最常用的是欧式距离,不同的距离公式有自身的特点,可以得到不同的效果。

  所有样本之间的相似度构成的矩阵被称为相似矩阵W,如下所示:


谱聚类的思想就是要转化为图分割问题。因此,第一步就是将原问题转化为图。转为图有两个问题要解决:一是两个顶点的边要怎样定义;二是要保留哪些边。

     对于第一个问题,如果两个点在一定程度上相似,就在两个点之间添加一条边。相似的程度由边的权重表示。因此,只要是计算相似度的公式都可用。    

 要保留部分边的原因有:边太多了不好处理;权重太低的边是多余的。

  样本数据转化成图以后再求出样本无向完全图对应的矩阵,前面已经介绍了。接下来就是谱聚类中如何来处理矩阵模型(就是图的划分)

谱聚类中图的划分准则:

  谱聚类算法的思想来源于谱图划分,假定将每个数据样本看作图中的顶点V,根据样本间的相似度将顶点间的边E赋权重值W,这样就得到一个基于样本相似度的无项加权图G=V,E)。那么在图G中就可将聚类问题转化为在图G上的图划分问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值