论文阅读“Graph Clustering via Variational Graph Embedding”(PR2022)

最新推荐文章于 2022-07-18 17:09:04 发布

不吃香菜的zbw

最新推荐文章于 2022-07-18 17:09:04 发布

阅读量362

点赞数

分类专栏：论文阅读文章标签：深度学习聚类

本文链接：https://blog.csdn.net/qq_43497436/article/details/124640619

版权

论文阅读专栏收录该内容

39 篇文章 11 订阅

订阅专栏

论文标题

Graph Clustering via Variational Graph Embedding

论文作者、链接

作者：Lin Guo, Qun Dai

链接：https://www.sciencedirect.com/science/article/abs/pii/S0031320321005148

Introduction逻辑（论文动机&现有工作存在的问题）

图基本介绍——聚类/图聚类基本介绍现有方法忽略节点特征生成对变分下界的影响，忽略图嵌入与聚类的潜在关系——本文方法：使用图拓扑结构和节点特征，对具有相似属性的节点进行聚类。我们定义了一个参数化的非线性映射，将包含拓扑结构和节点特征的图空间嵌入到低维特征空间中，并优化图嵌入空间中的聚类目标函数。在现有软聚类分布的基础上构造一个辅助目标分布，实现了一种自学习机制。对每个簇的损失进行正则化，以防止大型的簇对嵌入空间造成扭曲。设计了变分图谱自编码器，考虑了图结构和节点特征的联合生成模型。

论文核心创新点

（1）图变分自编码器

（2）带自训练的图谱结点聚类算法

论文方法

论文中的标识

论文流程图

给定一个无向图 $G=<V,E>$ ，其中 $V=\left\{v_{1}, v_{2}, \cdots, v_{n}\right\}$ 是顶点集合， $E$ 是边集。结点特征被归 $A$ 结为： $X=\left[x_{1}, x_{2}, \cdots, x_{n}\right]^{T} \in R^{n \times m}$ ，其中 $x_i \in R^{n \times m}$ 代表顶点的数值特征向量。边的结构通过一个邻接矩阵来记录 $A=\left\{A_{i j}\right\} \in R^{n \times n}$ 其中 $e_{i j}=\left\langle v_{i}, v_{j}\right\rangle \in E$ 的情况下 $A_{i j}=1$ 否则为0。邻接矩阵 $A$ 的主对角线元素都置为1，即每一个结点都与其本身相连。度矩阵为 $D = \operatorname{diag}\left(d_{1}, d_{2}, \cdots, d_{n}\right) \in R^{n \times n}$ 其中 $d_{i}=\sum_{j} A_{i j}$ 。

算法的主要目的是将图 $G$ 中n个样本点的特征 $X$ 和邻接矩阵 $A$ 分到不同的簇中。但是现实中的数据概率分布往往是高维的，聚类的开销会很大，并且会有很多无意义的特征掺杂其中。因此，选择将高维数据映射到低维。如果简单的使用线性映射，很多有用的信息会丢失。

变分图自编码器

对于一个属于 $x_i$ 其对应的潜在向量为 $z_i$ 。在某个时刻对于任意的 $A_{ij}$ 代表结点之间的相连信息，保证 $Z$ 存在对应的潜变量 $z_i$ 和 $z_j$ ，生成接近于同源关系 $A_{ij}$ 的结构信息。潜变量 $z_i$ 是从一个基于向量空间 $Z$ 的未知分布 $p(Z)$ 中采样的。为了准确地表达这个概念，我们给出 $X$ 和的对数似然:

该式的隐式表明， $X$ 和 $A$ 在高维中的概率分布可以借助隐藏空间Z来处理。由于真实数据中存在大量非必要信息并且维数较高，要用数学方法求解对数似然，首先要求解 $Z$ ，即得先知道未知分布。于是主要目标是自动学习潜变量 $z_i$ ，通过使用变分后验 $q(Z|X,A)$ 来评估真实的后验 $p(Z|X,A)$ 。使用琴生不等式（Jensen Inequality）对公式进行变换：

琴生不等式详见：琴生不等式_百度百科

得到下界 $L_{low}{(X,A)}$ 后，使用贝叶斯公式：

为了处理公式3，即最大下界的计算，采用随机梯度下降(SGD)过程，用近似正确的 $q(Z|X,A)$ 求解公式3中的优化问题。KL散度的部分用一个自编码器来优化，将 $X$ 和 $A$ 通过 $q(Z|X,A)$ 进行编码，通过 $p(X,A|Z)$ 进行解码。在生成过程中，关键是对可能产生 $x_i$ 和 $A_{ij}$ 的潜在变量进行抽样。这意味着我们需要一个可测量的 $q(Z|X,A)$ ，它观察并生成 $X$ 和 $A$ 。当概率分布 $q(Z|X,A)$ 服从潜变量时， $\mathrm{E}_{q(Z |X, A)}[\log p(X, A | Z)]$ 的计算过程将会比较简单。

推理模型

给定结点特征矩阵 $X$ 以及其邻接矩阵 $A$ ，构建一个图神经网络 $f(X,A)$ 将高维数据映射到低维空间，也就是前一小节中的映射 $q(Z|X,A)$ 。使用由参数 $\theta \in \mathbb{R}$ 控制的卷积核 $\phi_{\theta}=\operatorname{diag}(\theta)$ 在傅里叶域中对信号 $x_i$ 在图G上进行卷积，从而得到图G的卷积:

其中 $U$ 是正则化拉普拉斯 $L=U \Gamma U^{T}$ 的特征矩阵，其中 $U^{T} x_{i}$ 代表的 $x_i$ 傅里叶变换。 $\phi _\theta$ 代表φθ表示特征值 $\Gamma$ 关于L的函数，记作 $\phi _\theta(\Gamma)$ 。为了加快计算，用k阶切比雪夫多项式来近似估计，可以得到 $\phi _\theta(\Gamma) \approx \sum_{k=0}^{K} \theta_{k} T_{k}\left(2 / \lambda_{\max } \Gamma-I\right)$ ，其中 $\lambda _{max}$ 是 $L$ 的最大特征值， $\theta_k$ 代表切比雪夫多项式的第 $K$ 个参数。因此 $G$ 的卷积过程可以写为：

上式可以降低计算的时间复杂度。此时只用计算一次 $L$ ， $G$ 的谱卷积计算完全依赖于节点的k阶计算。进一步，在 $\theta=\theta_{0}=-\theta_{1}$ 条件下应用Chebyshev多项式的一阶近似来防止过拟合并且有 $\lambda_{\max } \approx 2$ 。即信号 $x_i$ 与滤波器 $\phi_\theta$ 的卷积可简化为:

关于在多通道的输入矩阵 $F$ 的谱卷积记为 $\left(D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right) F \Theta$ 其中 $\Theta$ 是滤波器的参数矩阵。这个卷积滤波器函数能带来非欧式信号的神经网络的信息传播。本文提出了一个分层传播规则：

其中 $W_k$ 是一个逐层的可训练的参数矩阵， $\varphi _k(\cdot)$ 代表一个逐层的激活函数， $f_0=X$ 代表一个结点特征向量 $x_i$ 的输入矩阵。

基于卷积和图像傅里叶变换，信息的逐点线性法则，对于每一个卷积层，构建一个基于图谱的神经网络。将激活函数 $\varphi _1(\cdot)$ 和 $\varphi _2(\cdot)$ 分别设置为 $ReLU(\cdot)=max(0,\cdot)$ 以及自映射函数。于是可以的得到：

由此构建了一个两层的图神经网络，对图进行逐层的线性信息嵌入到连续的特征空间。下一个重点是如何合理地利用SGD来推断嵌入空间中的随机潜变量。更具体地说，后验 $q(Z|X,A)$ 被认为是采样过程中的关键。利用常用的高斯分布进行建模。然后，得到以下表达式:

其中 $\mu _i$ 和 $\sigma _i$ 代表可从图神经网络学习的任意参数函数，并且 $\operatorname{diag}\left(\sigma_{i}^{2}\right)$ 是 $\sigma _i$ 构建的对角矩阵。通过采样多个高斯分布，隐含空间继承了足够的图信息，包括节点属性和节点之间的连接结构。

生成模型

上文解决了将图信息迁移到嵌入空间的问题，下一个问题是如何选择潜在变量来生成图谱信息。首先，如何选择潜变量来捕捉潜在信息以及如何决定具体的先验分布 $p(Z)$ 。有如下考虑，在任意d维空间中，给定d维正态分布下的随机变量，存在一个相当复杂的函数，通过这个函数可以将这些d维随机变量映射到待构造的d维空间下的概率密度分布。因此，做以下假设:

随后，可以从一个简单的分布中导出潜在变量样本 $z_i$ 。利用这个通用函数逼近器和简单学习函数的过程，独立的正态分布值可以按模型需求对任何潜在变量进行相应映射。这些潜变量随后被映射到 $x_i$ 和 $A_{ij}$ ，因为嵌入空间中的随机潜变量 $z_i$ 可以生成一个靠近 $x_i$ 的变量，任意潜变量 $z_i$ 和 $z_j$ 对应于 $A_{ij}$ 的近似。根据这个生成过程，联合概率分布 $p(X,A|Z)$ 可以分解为：

这里 $X$ 和 $A$ 是条件独立于 $Z$ 的。从 $q(Z|X,A)$ 采样 $Z$ ，给出了期望的估计，通常比 $N(0,I)$ 收敛得快得多。因此，联合概率密度函数(PDF) $p(X,A|Z)$ 的对数似然可分解为:

根据概率规则，可以确定 $X$ 和 $A$ 对 $Z$ 的依赖关系，从而较好地计算上式。根据上面的分析，联接关系 $A_{ij}$ 是由 $z_i$ 和 $z_j$ 决定的，我们利用潜变量之间的内积来表示生成的模型，并采用Sigmoid函数 $S(x)=1 /\left(1+e^{x}\right)$ 的概率计算 $A_{ij}$ 获取联合概率密度函数，即:

接下来，为了推断 $X$ 的输出分布，我们根据不同类型的数据利用不同的联合概率密度函数，这些数据分为实值数据和二元数据。具体来说，当 $x_i$ 为实值数据时，选择高斯分布作为输出分布。当 $x_i$ 是二元时，它可以是伯努利分布。其数学表达式为:

因此， $Z$ 在 $q(Z|X,A)$ 下可以确定变分后验 $p(A|Z)$ 和 $p(X|Z)$ 。

潜变量模型的变分学习

推理模型 $f(X,A)$ 将图节点特征矩阵 $X$ 和邻接矩阵 $A$ 映射到一个连续的隐藏空间，其中 $Z$ 中的潜在变量样本来自于近似后验 $q(Z|X,A)$ 。然后用潜变量 $z_i$ 作为 $p(A|Z)$ 和 $p(X|Z)$ 的输入，分别等于生成模型中数据 $X$ 和邻接矩阵 $A$ 的概率密度。因此，经过图形自编码器后，变分下界 $L_{low}$ 重新表示为:

注意前两项分别为 $X$ 和 $A$ 的再生项，第三项起正则化作用，防止过拟合，保证嵌入空间的构建能力。

具有可管理潜在变量的图聚类

通过图神经网络学习初始化连续隐藏空间 $Z$ 后，利用K-means在嵌入空间中进行聚类划分，得到c个初始聚类中心的 $\zeta_{j}(j=1, \cdots, c)$ 这是目前常用的两阶段聚类方法，通常得到的特征空间不能满足聚类的要求。当然，当低维表示接近完美时，可以做出更高的划分决策，而这很难实现。因此，我们利用一种自我监督的方法，在没有监督的情况下，同时划分节点和优化低维空间。

将嵌入空间中样本的聚类结果通过反向传播传递到推理模型中，对提取的编码部分进行控制。为了同步优化隐藏空间和分组决策，将变分学习得到的 $Z$ 作为初始特征空间，K-means得到的c个聚类中心作为初始聚类输入。给定初始的图嵌入中心和聚类中心，图聚类框架以无监督的方式同时对它们进行优化，以提高聚类效果。学生的t-分布被用来测量嵌入点 $z_i$ 和集群中心 $\zeta_{j}$ 的之间的相似性:

其中 $\alpha$ 是学生t-分布的自由度， $z_i \in Z$ 对应于图嵌入后的 $x_i \in X$ ， $p(z_j,\zeta_{j})$ 表示样本 $z_i$ 分配到簇 $\zeta_{j}$ 的概率(即，软分配)。所有实验均设 $\alpha$ = 1。为了直接更新网络参数和优化聚类结果，采用迭代学习的方式实现辅助分配的方法，以获得高置信度的可分配决策。其中，软分配 $p(z_j,\zeta_{j})$ 驱动辅助分配 $q(z_j,\zeta_{j})$ ，并通过优化 $p(Z,C)$ 与 $q(Z,C)$ 之间的KL散度，逐步更新嵌入空间样本点的聚类划分。这就给我们留下了以下表达式:

其中，辅助分布 $q(z_j,\zeta_{j})$ ，即原始分布 $p(z_j,\zeta_{j})$ 的近似分布，可以提高样本 $z_i$ 是一个分区成员的概率，其中聚类质心是 $\zeta_{j}$ 。 $\sum_{i=1}^{n} p\left(z_{i}, \zeta_{j}\right)$ 代表软聚类的频率。请注意，当辅助分布 $q(z_j,\zeta_{j})$ 由目标分布 $p(z_j,\zeta_{j})$ 计算时， $L_{clu}$ 利用了一种自我监督的方法，在没有监督信息约束的情况下迭代地细化嵌入空间和聚类划分。通过控制 $L_{clu}$ 分散的包埋样本以高置信度被划分到同一簇中。为了逐步优化嵌入分布，将学习推理模型与聚类可分配学习相结合，有助于共同建立正向低维嵌入和图节点分配。

变分下界的误差

在上文中，Jensen不等式被用来估计对数似然的变分下界。但是，我们不知道这种优化会带来多少误差。接下来，让我们仔细看看这个问题。事实上: $\log p(X, A)=L_{\text {low }}(X, A)+\operatorname{KL}[q(Z \mid X, A) \| p(Z \mid X, A)]$

即上式相比式(2)多了一个项 $\mathrm{KL}[q(Z \mid X, A) \| p(Z \mid X, A)]$ (证明见附录A)。直观上，需要采用 $Z$ 的变分后验 $q(Z|X,A)$ 来拟合真正的后验 $p(Z|X,A)$ 。也就是说，计算的下界 $L_{low}(X,A)$ 是估计 $X$ 和 $A$ 的联合对数似然所造成的信息损失。更具体地说，信息的丢失发生在隐藏空间的生成过程中。注意 $\mathrm{KL}[q(Z \mid X, A) \| p(Z \mid X, A)]$ 中的术语 $p(Z|X,A)$ 不能用解析法计算。因此，我们假设当采用任意的高性能概率分布 $q(Z|X,A)$ 时， $p(Z|X,A)$ 与预期匹配。在这种情况下，公式 $\mathrm{KL}[q(Z \mid X, A) \| p(Z \mid X, A)]$ 将是0，而我们需要解决的log-likelihood $\log p(X, A)$ 将近似于计算的变分下限 $L_{l o w}(X, A)$ 。

消融实验设计

嵌入维度的影响

一句话总结

说实话没看懂

论文好句摘抄（个人向）

（1）it is not a trivial task to maximumly embed the graph structure and node attributes into the low dimensional feature space.

不吃香菜的zbw

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
论文阅读“Graph Clustering via Variational Graph Embedding”(PR2022)

论文标题Graph Clustering via Variational Graph Embedding论文作者、链接作者：Lin Guo, Qun Dai链接：https://www.sciencedirect.com/science/article/abs/pii/S0031320321005148预备知识Introduction逻辑（论文动机&现有工作存在的问题）论文核心创新点相关工作论文方法消融实验设计一句话总结论文好句摘抄（个人向）...
复制链接

扫一扫