论文阅读“Graph Clustering via Variational Graph Embedding”(PR2022)

论文标题

Graph Clustering via Variational Graph Embedding

论文作者、链接

作者:Lin Guo, Qun Dai

链接:https://www.sciencedirect.com/science/article/abs/pii/S0031320321005148


Introduction逻辑(论文动机&现有工作存在的问题)

图基本介绍——聚类/图聚类基本介绍 现有方法忽略节点特征生成对变分下界的影响,忽略图嵌入与聚类的潜在关系——本文方法:使用图拓扑结构和节点特征,对具有相似属性的节点进行聚类。我们定义了一个参数化的非线性映射,将包含拓扑结构和节点特征的图空间嵌入到低维特征空间中,并优化图嵌入空间中的聚类目标函数。在现有软聚类分布的基础上构造一个辅助目标分布,实现了一种自学习机制。对每个簇的损失进行正则化,以防止大型的簇对嵌入空间造成扭曲。设计了变分图谱自编码器,考虑了图结构和节点特征的联合生成模型。

论文核心创新点

(1)图变分自编码器

(2)带自训练的图谱结点聚类算法


相关工作

图聚类:(1)基于结构(2)基于特征

没有一个同时考虑结构和特征一起的算法,基于图元嵌入的节点聚类方法并没有在学习低维嵌入空间的同时优化聚类中心。


论文方法

论文中的标识 

论文流程图

给定一个无向图G=<V,E>,其中V=\left\{v_{1}, v_{2}, \cdots, v_{n}\right\}是顶点集合,E是边集。结点特征被归A结为:X=\left[x_{1}, x_{2}, \cdots, x_{n}\right]^{T} \in R^{n \times m},其中x_i \in R^{n \times m}代表顶点的数值特征向量。边的结构通过一个邻接矩阵来记录A=\left\{A_{i j}\right\} \in R^{n \times n}其中e_{i j}=\left\langle v_{i}, v_{j}\right\rangle \in E的情况下A_{i j}=1否则为0。邻接矩阵A的主对角线元素都置为1,即每一个结点都与其本身相连。度矩阵为D = \operatorname{diag}\left(d_{1}, d_{2}, \cdots, d_{n}\right) \in R^{n \times n}其中d_{i}=\sum_{j} A_{i j}

算法的主要目的是将图G中n个样本点的特征X和邻接矩阵A分到不同的簇中。但是现实中的数据概率分布往往是高维的,聚类的开销会很大,并且会有很多无意义的特征掺杂其中。因此,选择将高维数据映射到低维。如果简单的使用线性映射,很多有用的信息会丢失。

变分图自编码器

对于一个属于x_i其对应的潜在向量为z_i。在某个时刻对于任意的A_{ij}代表结点之间的相连信息,保证Z存在对应的潜变量z_iz_j,生成接近于同源关系A_{ij}的结构信息。潜变量z_i是从一个基于向量空间Z的未知分布p(Z)中采样的。为了准确地表达这个概念,我们给出X和的对数似然:

该式的隐式表明,XA在高维中的概率分布可以借助隐藏空间Z来处理。由于真实数据中存在大量非必要信息并且维数较高,要用数学方法求解对数似然,首先要求解Z,即得先知道未知分布。于是主要目标是自动学习潜变量z_i,通过使用变分后验q(Z|X,A)来评估真实的后验p(Z|X,A)。使用琴生不等式(Jensen Inequality)对公式进行变换:

琴生不等式详见:琴生不等式_百度百科 

得到下界L_{low}{(X,A)}后,使用贝叶斯公式:

为了处理公式3,即最大下界的计算,采用随机梯度下降(SGD)过程,用近似正确的q(Z|X,A)求解公式3中的优化问题。KL散度的部分用一个自编码器来优化 ,将XA通过q(Z|X,A)进行编码,通过p(X,A|Z)进行解码。在生成过程中,关键是对可能产生x_iA_{ij}的潜在变量进行抽样。这意味着我们需要一个可测量的q(Z|X,A),它观察并生成XA。当概率分布q(Z|X,A)服从潜变量时,\mathrm{E}_{q(Z |X, A)}[\log p(X, A | Z)]的计算过程将会比较简单。

推理模型

给定结点特征矩阵X以及其邻接矩阵A,构建一个图神经网络f(X,A)将高维数据映射到低维空间,也就是前一小节中的映射q(Z|X,A)。使用由参数\theta \in \mathbb{R}控制的卷积核\phi_{\theta}=\operatorname{diag}(\theta)在傅里叶域中对信号x_i在图G上进行卷积,从而得到图G的卷积:

 其中U是正则化拉普拉斯L=U \Gamma U^{T}的特征矩阵,其中U^{T} x_{i}代表的x_i傅里叶变换。\phi _\theta代表φθ表示特征值\Gamma关于L的函数,记作\phi _\theta(\Gamma)。为了加快计算,用k阶切比雪夫多项式来近似估计,可以得到\phi _\theta(\Gamma) \approx \sum_{k=0}^{K} \theta_{k} T_{k}\left(2 / \lambda_{\max } \Gamma-I\right),其中\lambda _{max}L的最大特征值,\theta_k代表切比雪夫多项式的第K个参数。因此G的卷积过程可以写为:

上式可以降低计算的时间复杂度。此时只用计算一次LG的谱卷积计算完全依赖于节点的k阶计算。进一步,在\theta=\theta_{0}=-\theta_{1}条件下应用Chebyshev多项式的一阶近似来防止过拟合并且有\lambda_{\max } \approx 2。即信号x_i与滤波器\phi_\theta的卷积可简化为:

关于在多通道的输入矩阵F的谱卷积记为\left(D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right) F \Theta其中\Theta是滤波器的参数矩阵。这个卷积滤波器函数能带来非欧式信号的神经网络的信息传播。本文提出了一个分层传播规则:

 其中W_k是一个逐层的可训练的参数矩阵,\varphi _k(\cdot)代表一个逐层的激活函数,f_0=X代表一个结点特征向量x_i的输入矩阵。

基于卷积和图像傅里叶变换,信息的逐点线性法则,对于每一个卷积层,构建一个基于图谱的神经网络。将激活函数\varphi _1(\cdot)\varphi _2(\cdot)分别设置为ReLU(\cdot)=max(0,\cdot)以及自映射函数。于是可以的得到:

 由此构建了一个两层的图神经网络,对图进行逐层的线性信息嵌入到连续的特征空间。下一个重点是如何合理地利用SGD来推断嵌入空间中的随机潜变量。更具体地说,后验q(Z|X,A)被认为是采样过程中的关键。利用常用的高斯分布进行建模。然后,得到以下表达式:

 其中\mu _i\sigma _i代表可从图神经网络学习的任意参数函数,并且\operatorname{diag}\left(\sigma_{i}^{2}\right)\sigma _i构建的对角矩阵。通过采样多个高斯分布,隐含空间继承了足够的图信息,包括节点属性和节点之间的连接结构。

生成模型

上文解决了将图信息迁移到嵌入空间的问题,下一个问题是如何选择潜在变量来生成图谱信息。首先,如何选择潜变量来捕捉潜在信息以及如何决定具体的先验分布p(Z)。有如下考虑,在任意d维空间中,给定d维正态分布下的随机变量,存在一个相当复杂的函数,通过这个函数可以将这些d维随机变量映射到待构造的d维空间下的概率密度分布。因此,做以下假设:

随后,可以从一个简单的分布中导出潜在变量样本z_i。利用这个通用函数逼近器和简单学习函数的过程,独立的正态分布值可以按模型需求对任何潜在变量进行相应映射。这些潜变量随后被映射到x_iA_{ij},因为嵌入空间中的随机潜变量z_i可以生成一个靠近x_i的变量,任意潜变量z_iz_j对应于A_{ij}的近似。根据这个生成过程,联合概率分布p(X,A|Z)可以分解为:

 这里XA是条件独立于Z的。从q(Z|X,A)采样Z,给出了期望的估计,通常比N(0,I)收敛得快得多。因此,联合概率密度函数(PDF)p(X,A|Z)的对数似然可分解为:

 根据概率规则,可以确定XAZ的依赖关系,从而较好地计算上式。根据上面的分析,联接关系A_{ij}是由z_iz_j决定的,我们利用潜变量之间的内积来表示生成的模型,并采用Sigmoid函数S(x)=1 /\left(1+e^{x}\right)的概率计算A_{ij}获取联合概率密度函数,即:

 接下来,为了推断X的输出分布,我们根据不同类型的数据利用不同的联合概率密度函数,这些数据分为实值数据和二元数据。具体来说,当x_i为实值数据时,选择高斯分布作为输出分布。当x_i是二元时,它可以是伯努利分布。其数学表达式为:

 因此,Zq(Z|X,A)下可以确定变分后验p(A|Z)p(X|Z)

潜变量模型的变分学习

推理模型f(X,A)将图节点特征矩阵X和邻接矩阵A映射到一个连续的隐藏空间,其中Z中的潜在变量样本来自于近似后验q(Z|X,A)。然后用潜变量z_i作为p(A|Z)p(X|Z)的输入,分别等于生成模型中数据X和邻接矩阵A的概率密度。因此,经过图形自编码器后,变分下界L_{low}重新表示为:

注意前两项分别为XA的再生项,第三项起正则化作用,防止过拟合,保证嵌入空间的构建能力。

具有可管理潜在变量的图聚类

通过图神经网络学习初始化连续隐藏空间Z后,利用K-means在嵌入空间中进行聚类划分,得到c个初始聚类中心的\zeta_{j}(j=1, \cdots, c)这是目前常用的两阶段聚类方法,通常得到的特征空间不能满足聚类的要求。当然,当低维表示接近完美时,可以做出更高的划分决策,而这很难实现。因此,我们利用一种自我监督的方法,在没有监督的情况下,同时划分节点和优化低维空间。

将嵌入空间中样本的聚类结果通过反向传播传递到推理模型中,对提取的编码部分进行控制。为了同步优化隐藏空间和分组决策,将变分学习得到的Z作为初始特征空间,K-means得到的c个聚类中心作为初始聚类输入。给定初始的图嵌入中心和聚类中心,图聚类框架以无监督的方式同时对它们进行优化,以提高聚类效果。学生的t-分布被用来测量嵌入点z_i和集群中心\zeta_{j}的之间的相似性:

 其中\alpha是学生t-分布的自由度,z_i \in Z对应于图嵌入后的x_i \in Xp(z_j,\zeta_{j})表示样本z_i分配到簇\zeta_{j}的概率(即,软分配)。所有实验均设\alpha = 1。为了直接更新网络参数和优化聚类结果,采用迭代学习的方式实现辅助分配的方法,以获得高置信度的可分配决策。其中,软分配p(z_j,\zeta_{j})驱动辅助分配q(z_j,\zeta_{j}),并通过优化p(Z,C)q(Z,C)之间的KL散度,逐步更新嵌入空间样本点的聚类划分。这就给我们留下了以下表达式:

其中,辅助分布q(z_j,\zeta_{j}),即原始分布p(z_j,\zeta_{j})的近似分布,可以提高样本z_i是一个分区成员的概率,其中聚类质心是\zeta_{j}\sum_{i=1}^{n} p\left(z_{i}, \zeta_{j}\right)代表软聚类的频率。请注意,当辅助分布q(z_j,\zeta_{j})由目标分布p(z_j,\zeta_{j})计算时,L_{clu}利用了一种自我监督的方法,在没有监督信息约束的情况下迭代地细化嵌入空间和聚类划分。通过控制L_{clu}分散的包埋样本以高置信度被划分到同一簇中。为了逐步优化嵌入分布,将学习推理模型与聚类可分配学习相结合,有助于共同建立正向低维嵌入和图节点分配。

变分下界的误差

在上文中,Jensen不等式被用来估计对数似然的变分下界。但是,我们不知道这种优化会带来多少误差。接下来,让我们仔细看看这个问题。事实上:\log p(X, A)=L_{\text {low }}(X, A)+\operatorname{KL}[q(Z \mid X, A) \| p(Z \mid X, A)]

即上式相比式(2)多了一个项\mathrm{KL}[q(Z \mid X, A) \| p(Z \mid X, A)](证明见附录A)。直观上,需要采用Z的变分后验q(Z|X,A)来拟合真正的后验p(Z|X,A)。也就是说,计算的下界L_{low}(X,A)是估计XA的联合对数似然所造成的信息损失。更具体地说,信息的丢失发生在隐藏空间的生成过程中。注意\mathrm{KL}[q(Z \mid X, A) \| p(Z \mid X, A)]中的术语p(Z|X,A)不能用解析法计算。因此,我们假设当采用任意的高性能概率分布q(Z|X,A)时,p(Z|X,A)与预期匹配。在这种情况下,公式\mathrm{KL}[q(Z \mid X, A) \| p(Z \mid X, A)]将是0,而我们需要解决的log-likelihood \log p(X, A)将近似于计算的变分下限L_{l o w}(X, A)


消融实验设计

嵌入维度的影响


一句话总结

说实话没看懂


论文好句摘抄(个人向)

(1)it is not a trivial task to maximumly embed the graph structure and node attributes into the low dimensional feature space.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值