IJCAI 19 : Attributed Graph Clustering via Adaptive Graph Convolution ---- PolyU Qimai Li

文章信息

在这里插入图片描述

摘要

然而,对于图卷积如何影响聚类性能以及如何正确地使用它来优化不同图的性能的了解有限。现有的方法本质上使用固定的低阶的图卷积,只考虑每个节点几跳内的邻居,没有充分利用节点关系,忽略了图的多样性。
本文提出了一种自适应图卷积方法,该方法利用高阶图卷积来捕获全局聚类结构,并自适应地为不同的图选择合适的顺序。

1. introduction

虽然图卷积在整合结构和特征信息方面被证明非常有效,但关于如何应用于最大化聚类性能的研究很少。大多数现有的方法直接使用GCN作为特征提取器,其中每个卷积层与投影层耦合,使得堆叠多个层和训练深度模型变得困难。事实上,ARGE[潘等人,2018]和MGAE[王等人,2017]使用浅两层和三层GCN分别在他们的模型,只考虑每个节点的邻居在两个或三个跳,因此可能不足以捕获全球集群的大型图形结构。此外,所有这些方法都使用了一个固定的模型,而忽略了真实世界的图的多样性,从而导致性能的次优

为了解决这些问题,我们提出了一种自适应图卷积(AGC)方法的属性图聚类。
直觉是,相邻节点往往在同一集群中,如果同一集群中的节点具有相似的特征表示,聚类将变得更加容易。
为此,我们没有像GCN中那样堆叠许多层,而是设计了一个k阶图卷积,作为节点特征上的低通图滤波器,以获得平滑的特征表示,其中k可以使用簇内距离自适应地选择。
AGC由两个步骤组成:1)进行k阶图卷积运算,得到平滑的特征表示; 2)对学习到的特征进行谱聚类,对节点进行聚类。
AGC可以方便地使用高阶图卷积来捕获全局簇结构,并允许为不同的图选择一个合适的k。

2. related work

06这篇理论可以之后看看
在这里插入图片描述

3.方法

3.1 图聚类

在这里插入图片描述

3.2 图卷积

GCN

这一小节从laplacian矩阵的特征值和性质出发,其二次型能够衡量向量的平滑性。其特征值和滤波间的关系等。 理想要得到一个 低通滤波,作者通过图说出 GCN 严格上不是低通的。 低通需要 递减 非负。他们设计的是 式子5
在这里插入图片描述
在这里插入图片描述
采用5式 作为频率响应函数 图滤波是:6式
在这里插入图片描述

GCN的形式,不是严格 低通
在这里插入图片描述

K-order

为了便于聚类,希望同一类的节点在经过图过滤后应该具有相似的特征表示。然而,(7)中的一阶图卷积可能不足以实现这一点,特别是对于大型稀疏图,因为它只通过一个节点的聚合来更新每个节点vi,而不考虑长距离邻域关系。为了捕获全局图的结构并便于聚类,我们建议使用k阶图的卷积。
在这里插入图片描述
k阶图卷积的迭代计算公式为:
在这里插入图片描述
从(11)中可以很容易地看到,k阶图卷积通过迭代聚合其k跳邻居的特征来更新每个节点vi的特征。由于k阶图卷积考虑了长距离数据关系,它可以用于捕获全局图结构,以提高聚类性能。

这里跳过了证明,证明是k越大平滑适合聚类

3.3 通过AGC聚类

我们首先应用线性内核K=¯X¯XT学习节点之间的成对相似性,
然后我们计算W=12(||||K>|)以确保相似矩阵对称和非负,|·|意味着矩阵的每个元素的绝对值。
最后,我们对W进行谱聚类,通过计算与W的m个最大特征值相关的特征向量,
然后利用特征向量对特征向量应用k-means算法得到聚类结果

k阶图卷积的中心问题是如何选择一个合适的k。虽然k阶图的卷积可以使附近的节点具有相似的特征表示,但k肯定不是越大越好。K太大会导致过度平滑,即不同集群中节点的特征是混合的,变得难以区分。

为了自适应地选择k阶,我们使用聚类性能度量——仅基于数据的内在信息的内部标准[Aggarwal和Reddy,2014]。在这里,我们考虑簇内距离(对于给定的簇分区C的簇内©距离),它表示C的紧致性:
在这里插入图片描述
需要注意的是,在具有固定数据特征的情况下,簇间距离也可以用来度量聚类性能,良好的簇类划分应该具有较大的簇间距离和较小的簇内距离。
然而,根据定理1,随着k的增加,节点特征变得更平滑,这可以显著减少簇内和簇间的距离。
因此,集群间的距离可能不是衡量集群性能w.r.t.的可靠度量指标因此,我们建议观察选择k的簇内距离的变化。

本文算法的迭代与停止

我们的策略是找到©w.r.t.的第一个局部最小值k.
具体来说,我们从k=1开始,然后迭代地增加它1。
在每次迭代t中,我们首先通过进行k阶(k=t)图卷积和谱聚类得到聚类划分C(t),然后计算intra(C(t))。
一旦内(C(t))大于内(C(t−1)),我们停止迭代并设置选择的k=t−1。
更正式地说,考虑d内(t−1)=内(C(t))−内(C(t−1)),停止迭代的标准是d内(t−1)>0,即,在内(C(t))的第一个局部最小值停止。
所以,最后的选择集群分区为C(t−1)

这种选择策略的好处是有两方面的。首先,它确保为©内找到一个局部最小值,这可能表明一个良好的集群分区,并避免过度平滑。其次,停止在©.内的第一个局部最小值是时间有效的

在这里插入图片描述

3.4 时间复杂度

在这里插入图片描述

4.实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值