阅读论文AGC,利用高阶结构信息来提升聚类的效果。本文从图信号处理角度来理解GNN,增强聚类效果。目标还是将节点划分成m个聚类。
一、Introduction
近年来的几种图卷积的聚类方法在一些真实的属性网络上取得了良好的聚类性能。然而现有方法都是低阶的,只考虑每个节点的邻居,或者两个三个跳之外的节点,固定的图卷积模型忽略了真实的图的多样性,只考虑每个节点几跳之内的邻居,没有利用节点关系,忽略了深度。本文从两方面提出了一种自适应的图卷积方法。
- 从图信号处理谱图理论的角度来理解GNN,增强聚类效果
- 利用高阶图卷积选择全局聚类结构。
原理
相邻的节点往往在同一个类中,如果相同类中的节点拥有相似的节点特征的话,那么再做节点聚类就简单很多。因此本文中不像GCN一样多层叠加,而是设计一个k阶的图卷积,对节点特征做低通滤波获得平滑的特征表示。k可以通过类内距离自适应选择。
步骤
- 进行k阶图卷积
- 对学习到的特征对节点进行频谱空间的聚类
二、算法
提到了一些预备条件
和正常的图卷积的开始相同,使用拉普拉斯矩阵,提取特征矩阵和特征向量的对角矩阵。
L=D-A,L是拉普拉斯矩阵,D是顶点的度矩阵,A是图上的邻接矩阵,对称归一化的拉普拉斯算子: L = I − D − 1 2 A D − 1 2 L=I-D^{-\frac {1}{2}}AD^ {- \frac {1}{2}} L=I−D−21AD−21
在图信号领域定义的卷积核。
其中,
p
p
p是低通滤波器。如下定义:
p
(
λ
q
)
=
1
−
1
2
λ
q
p(\lambda _q)=1-\frac{1}{2}\lambda _q
p(λq)=1−21λq
带入卷积核的公式可得
这里的p是对特征值
Λ
\Lambda
Λ进行放缩。
对特征矩阵X进行卷积后,得到卷积后的特征矩阵:
X
^
=
G
X
\hat X=GX
X^=GX
在特征矩阵上应用这种低通滤波器,使得像临界点在每个维度上有相似的特征值,基于相邻节点可能在同一类的聚类假设,使用低通图滤波器进行图卷积将会使得下游聚类任务更加容易。
k阶图卷积
为了便于聚类,希望在图过滤之后,同一类节点具有相似的特征表示。然而一阶的图卷积可能不足以实现这一点,应使用k阶的。对应的图卷积核可使用
G
=
(
I
−
1
2
L
s
)
k
=
U
(
I
−
1
2
Λ
)
k
G=(I-\frac {1}{2}L_s )^k=U(I-\frac{1}{2} \Lambda )^k
G=(I−21Ls)k=U(I−21Λ)k
k阶图卷积:
抑制了更多的高频信号,更多低频信号被捕获,这样更符合聚类要求。(why)由于k’阶图卷积考虑了远程数据关系,可以用于捕获全局图结构,提高聚类性能。
(
Λ
q
\Lambda_q
Λqshihwei频率,特征向量是为图的傅立叶变换基础。)
如何选择合适的k
虽然k阶图卷积可以让附近的节点具有相似的特征表示,但是k并不是越大越好,k太大会导致过度平滑,不同类间的节点特征会混合无法区分,如图
当k=1时,还无法分辨出类间结构,但是当k=12时就已经显现出了清晰的结构,然而k=100时就已经不同集群的节点混合在一起了。因此考虑类内距离表示节点C的一种性质,紧凑性。
一个好的类划分应该是类间距离大,类内距离小的,
策略是先找到一个局部最小值,然后从k=1开始逐渐增加k的大小,一旦intra(C(t))的值大于了intra(C(t)),就立即停止,选择k=t-1。首先找到intra(C)的局部最小值,表明良好的类分区,其次在第一个局部最小值停止在时间上是有效的。
算法如下图。