【MAGNN】文献精讲：Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding_magnn: metapath aggregated graph neural network fo-CSDN博客

本文链接：https://blog.csdn.net/littlefatguy/article/details/141675094

在这里插入图片描述

标题： MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding
（面向异构图嵌入的元路径聚合图神经网络）
摘要： 大量现实世界的图或网络本质上是异构的，涉及各种节点类型和关系类型。
异构图嵌入是将异构图丰富的结构信息和语义信息嵌入到低维节点表示中。现有模型通常在异构图中定义多个元路径来捕获复合关系并指导邻居选择。然而，这些模型要么忽略节点内容特征，要么丢弃元路径中的中间节点，要么只考虑一个元路径。为了解决这三个限制，我们提出了一种新的模型，称为元路径聚合图神经网络(MAGNN)，以提高最终性能。
具体来说，MAGNN采用了三个主要组件，即节点内容转换来封装输入节点属性，元路径内聚合来合并中间语义节点，元路径间聚合来合并来自多个元路径的消息。在三个真实世界的异构图数据集上进行的节点分类、节点聚类和链接预测的大量实验表明，MAGNN比最先进的基线获得了更准确的预测结果。

文献链接： https://arxiv.org/abs/2002.01680
代码链接： https://github.com/cynricfu/MAGNN?tab=readme-ov-file

1.背景

图嵌入（Graph Embedding） 是一种将图结构数据中的节点映射到低维向量空间的技术，这些向量可以捕捉节点的邻域结构和语义信息。这种技术在社交网络分析、推荐系统、知识图谱等领域有着广泛的应用。异构图（Heterogeneous Graph） 作为一种特殊类型的图，包含多种类型的节点和边，这些节点和边可以表示不同的实体和关系。例如，在学术合作网络中，节点可以是作者、论文和会议，边可以是合作关系、出版关系等。异构图的复杂性在于其结构和内容的多样性，这使得传统的图嵌入方法难以有效处理。
现有的大多数异构图嵌入方法都是基于元路径的思想，传统的图嵌入方法在处理异构图时往往具有以下缺点：

忽略节点内容特征：一些现有模型没有利用节点的内容特征，例如文本属性或数值特征，这些特征对于理解节点的语义信息非常重要；
丢弃元路径中间节点：某些模型在处理元路径（metapath）时，只考虑路径的起点和终点，而忽略了路径中的中间节点，这可能导致信息的丢失；
只考虑单一元路径：一些模型依赖于单一的元路径进行嵌入，这限制了模型捕捉图的多方面语义信息的能力。

为了克服这些问题，本文提出MAGNN模型，采用了以下关键技术：

节点内容转换：应用类型特定的线性变换将异构节点属性(不同节点类型的维度可能不相等)投影到相同的潜在向量空间，以处理节点内容的异质性；
元路径内聚合：对每个元路径应用带有注意机制的内部元路径聚合，每个目标节点从连接该节点及其基于元路径的邻居的元路径实例中提取并组合信息，以捕获更丰富的结构和语义信息；
元路径间聚合：进一步利用注意机制进行元路径间聚合，将多个元路径获得的潜在向量融合到最终的节点嵌入中。通过整合多个元路径以学习异构图中根深蒂固的综合语义。

2.符号说明

在这里插入图片描述

3.方法

MAGNN由节点内容转换、元路径内聚合和元路径间聚合三个主要组件构成。参考示意图如图下：
在这里插入图片描述

整个前向传播过程算法如下所示：
在这里插入图片描述

3.1 节点内容转换(Node Content Transformation)

对于与节点属性相关的异构图，不同的节点类型可能具有不相等的特征向量维数。即使它们恰好是相同的维度，它们也可能位于不同的特征空间中。不同维数的特征向量在统一的框架中处理起来比较麻烦。因此需要首先将不同类型的节点特征投影到同一个潜在向量空间中。具体就是对每种类型的节点应用特定类型的线性变换。
对于类型为$A \in \mathcal{A} $中的节点$ v \in \mathcal{V}_A $，有
$\mathbf {h}'_v = \mathbf{W}_A \cdot \mathbf{x}^A_v$ 其中， $\mathbf{x}_v \in \mathbb{R}^{d_A}$ 为原始特征向量， $\mathbf {h}'_v \in \mathbb{R}^{d'}$ 为节点 $v$ 的投影潜向量， $\mathbf{W}_A \in \mathbb{R}^{d' \times d_A}$ 为A类节点的参数化权重矩阵。通过这种方式，所有节点的投影特征具有相同的维度，这为后续的聚合步骤提供了便利，因为它们可以在同一空间内进行比较和组合。

3.2 元路径内聚合(Intra-metapath Aggregation)

给定一个元路径P，元路径内聚合层通过对P的元路径实例进行编码，学习嵌入在目标节点、基于元路径的邻居以及它们之间的上下文中的结构信息和语义信息。
设 $P (u, v)$ 是连接目标节点 $v$ 和它基于元路径的邻居节点 $\in \mathcal{N} _v^P$ 的元路径实例，定义 $P (u, v)$ 的中间节点为 $\left \{m^{P(u,v)}\right \}=P(u,v) \setminus \left \{u,v\right \}$ .

3.2.1 元路径实例编码

首先，对于每个元路径实例，模型需要将实例上的节点特征编码为单一的向量表示。
$\mathbf{h}_{P(v, u)}=f_{\theta}(P(v, u))=f_{\theta}\left(\mathbf{h}_{v}^{\prime}, \mathbf{h}_{u}^{\prime},\left\{\mathbf{h}_{t}^{\prime}, \forall t \in\left\{m^{P(v, u)}\right\}\right\}\right)$ 其中， $\mathbf{h}_{P(v, u)} \in \mathbb{R}^{d'}$ 的维数是 $d^{'}$ 。
这可以通过不同类型的元路径实例编码器完成，文中提供了均值编码器、线性编码器或基于关系旋转的编码器。

（一）均值编码器(Mean Encoder)

这种编码器通过简单地计算元路径实例上所有节点特征的元素均值来生成一个向量。其计算公式为：
$\mathbf{h}_P(v,u) = \text{MEAN} \left\{ \mathbf{h}'_t | \forall t \in P(v,u) \right\}$ 这种方法快速且易于实现，但它忽略了节点间的复杂关系和可能的权重差异。

（二）线性编码器(Linear Encoder)

线性编码器是均值编码器的扩展，在均值编码器的基础上增加了一个线性变换：
$\mathbf{h}_P(v,u) = \mathbf{W}_P \cdot \text{MEAN} \left\{ \mathbf{h}'_t | \forall t \in P(v,u) \right\}$ 它为平均值赋予了额外的参数化能力，允许模型学习如何更好地结合元路径上的节点特征。。

（三）基于复数空间中的关系旋转编码器 (Relational Rotation Encoder)

给定 $P(v,u)=(t_0,t_1, \dots,t_n)$ ， $t_0=u,t_n=v$ ，设 $R_i$ 为节点 $t_{i-1}$ 和节点 $t_{i}$ 之间的关系， $r_i$ 为 $R_i$ 的关系向量，则关系旋转编码器表示为， $\mathbf{o}_0 = \mathbf{h}'_{t_0}=\mathbf{h}'_{u} \\ \mathbf{o}_i = \mathbf{h}'_{t_i} + \mathbf{o}_{i-1} \odot \mathbf{r}_i \\ \mathbf{h}_P(v,u) =\frac{\mathbf{o}_n}{n+1}$ 其中， $\mathbf{h}'_{t_i}$ 和 $\mathbf{r}_i$ 都是复向量， $\odot$ 是元素积。这样， $d^{'}$ 维的实向量可以解释为 $d^{'} /2$ 维的复向量，具体方法是将向量的前半部分作为实部，后半部分作为虚部。
上面介绍的均值和线性编码器基本上将元路径实例视为一个集合，因此忽略了嵌入在元路径的顺序结构中的信息。这种编码器受到知识图谱嵌入模型RotatE的启发，通过在复数空间中对节点特征进行关系旋转来捕获元路径上的顺序和结构信息。它特别适用于建模具有明确顺序或方向性的元路径。

3.2.2 图注意层

将元路径实例编码为向量表示后，采用图注意层对目标节点 $v$ 相关的P元路径实例进行加权求和，因为不同的元路径实例对目标节点表示的贡献程度不同。通过学习每个元路径实例的标准化重要性权重 $\alpha_{vu}^P$ 来建模，然后对所有实例进行加权求和:
$\begin{aligned} e_{v u}^{P} & =\operatorname{LeakyReLU}\left(\mathbf{a}_{P}^{\top} \cdot\left[\mathbf{h}_{v}^{\prime} \| \mathbf{h}_{P(v, u)}\right]\right) \\ \alpha_{v u}^{P} & =\frac{\exp \left(e_{v u}^{P}\right)}{\sum_{s \in \mathcal{N}_{v}^{P}} \exp \left(e_{v s}^{P}\right)} \\ \mathbf{h}_{v}^{P} & =\sigma\left(\sum_{u \in \mathcal{N}_{v}^{P}} \alpha_{v u}^{P} \cdot \mathbf{h}_{P(v, u)}\right) \end{aligned}$ 其中， $\mathbf{a}_P \in \mathbb{R}^{2d'}$ 为元路径P的参数化注意力向量， $\|$ 为向量拼接算子， $e_{vu}^P$ 表示元路径 $P (u, v)$ 是对节点 $v$ 的重要性。随后使用softmax函数对所有邻居节点 $\in \mathcal{N} _v^P$ 的注意力分数进行归一化，得到权重 $\alpha_{vu}^P$ 。用这些对邻居节点的特征进行加权求和，最后再经过一个激活函数。
这种注意机制也可以扩展到多头，这有助于稳定学习过程，减少图的异质性带来的高方差。
具体操作是执行K个独立的注意力机制，将输出合并：
$\mathbf{h}_{v}^{P}=\|_{k=1}^{K} \sigma\left(\sum_{u \in N_{v}^{P}}\left[\alpha_{v u}^{P}\right]_{k} \cdot \mathbf{h}_{P(v, u)}\right)$ 其中， $\left[\alpha_{v u}^{P}\right]_k$ 是元路径实例 $P (v, u)$ 在第k个注意力头处对节点 $v$ 的标准化重要性。

3.3 元路径间聚合(Inter-metapath Aggregation)

在聚合了每个元路径中的节点和边缘数据之后，将通过不同元路径获得的节点嵌入信息进行整合，以生成最终的节点表示。对于节点类型A，$ |\mathcal{V}A|: \left { \mathbf{h}{v}^{P_1}, \mathbf{h}{v}^{P_2}, \dots,\mathbf{h}{v}^{P_M} \right } $ 表示潜在向量集，其中 $\in \mathcal{V}_A$ ，M是类型A的元路径数。
本文在取节点向量元素均值的基础上，使用注意力机制来聚合来自不同元路径的嵌入向量，利用注意机制为不同的元路径分配不同的权重。
首先，对所有节点 $\in \mathcal{V}_A$ 的变换后的元路径特定节点向量求平均值来总结每个元路径 $P_i \in \mathcal{P}_A$ :
$\mathbf{s}_{P_{i}}=\frac{1}{\left|\mathcal{V}_{A}\right|} \sum_{v \in \mathcal{V}_{A}} \tanh \left(\mathbf{M}_{A} \cdot \mathbf{h}_{v}^{P_{i}}+\mathbf{b}_{A}\right)$ 其中， $\mathbf{M}_{A} \in \mathbb{R}^{d_m \times d'}$ 和 $\mathbf{b}_{A} \in \mathbb{R}^{d_m}$ 为可学习参数。然后使用注意机制将 $v$ 的元路径特定节点向量融合如下:
$\begin{array}{l} e_{P_{i}}=\mathbf{q}_{A}^{\top} \cdot \mathbf{s}_{P_{i}} \\ \beta_{P_{i}}=\frac{\exp \left(e_{P_{i}}\right)}{\sum_{P \in \mathcal{P}_{A}} \exp \left(e_{P}\right)} \\ \mathbf{h}_{v}^{\mathcal{P}_{A}}=\sum_{P \in \mathcal{P}_{A}} \beta_{P} \cdot \mathbf{h}_{v}^{P}, \end{array}$ 其中， $\mathbf{q}_{A} \in \mathbb{R}^{d_m}$ A类节点的参数化注意力向量， $\beta_{P_{i}}$ 可以理解为元路径 $P_i$ 对于A类节点的相对重要性，当为每个 $P_i \in \mathcal{P}_A$ 计算出 $\beta_{P_{i}}$ 后，便对 $v$ 的所有特定于元路径的节点向量进行加权求和。
最后，MAGNN使用一个附加的线性变换和一个非线性函数将节点嵌入投影到具有期望输出维数的向量空间中:
$\mathbf{h}_{v}=\sigma\left(\mathbf{W}_{o} \cdot \mathbf{h}_{v}^{\mathcal{P}_{A}}\right)$ 其中 $σ (\cdot)$ 为激活函数， $\mathbf{W}_{o} \in \mathbb{R}^{d_o \times d'}$ 为权重矩阵。这个投影可以被理解为用于节点分类的线性分类器，也可以被看作是用于链路预测的具有节点相似度量的空间的投影。

4.训练

根据不同任务的特点和节点标签的可用性，我们可以在半监督学习和无监督学习两种主要的学习范式下训练MAGNN。
对于半监督学习(semi-supervised learning)，我们可以在一小部分标记节点的引导下，通过反向传播和梯度下降最小化交叉熵来优化模型权重，从而学习到异构图的有意义的节点嵌入。这种半监督学习的交叉熵损失表示为:
$\mathcal{L}=-\sum_{v\in\mathcal{V}_{L}}\sum_{c=1}^{C} y_{v}[c]\cdot\log h_{v}[c]$ 其中 $\mathcal{V}_L$ 是有标签的节点的集合，C是类的数量， $y_v$ 是节点 $v$ 的独热标签向量， $h_v$ 是节点 $v$ 的预测概率向量.
对于无监督学习，在没有任何节点标签的情况下，我们可以通过最小化下面的损失函数来优化模型权值，使用负采样：
$\mathcal{L}=-\sum_{(u, v)\in\Omega}\log\sigma\left(\mathbf{h}_{u}^{\top}\cdot \mathbf{h}_{v}\right)-\sum_{\left(u^{\prime}, v^{\prime}\right)\in\Omega^{-}}\log\sigma\left(-\mathbf{h}_{u^{\prime}}^{\top}\cdot \mathbf{h}_{v^{\prime}}\right)$ 其中 $σ (\cdot)$ 为sigmoid函数， $Ω$ 为观测到的(正)节点对集合， $Ω^−$ 为从所有未观测到的节点对中采样的负节点对集合( $Ω$ 的补集)。
文章采用了来自不同领域的三个广泛使用的异构图数据集来评估MAGNN与最先进的基线相比的性能。具体而言，实验中使用IMDb和DBLP数据集进行节点分类和节点聚类，使用LastFM数据集进行链路预测。

5.结果

5.1 节点分类( Node Classification)

在IMDb和DBLP数据集上进行实验，比较不同模型在节点分类任务上的性能。将每个学习模型生成的标记节点(IMDb中的电影和DBLP中的作者)的嵌入提供给具有不同训练比例的线性支持向量机(SVM)分类器。注意，只有测试集中的节点被输入到线性支持向量机，因为半监督模型已经“看到”了训练集和验证集中的节点。每种嵌入模型的10次运行的平均Macro-F1和Micro-F1如下表所示。
在这里插入图片描述

如表所示，在不同的训练比例和数据集上，MAGNN的表现始终优于其他基线模型。
在IMDb数据集上，node2vec模型的表现优于传统的异构图嵌入模型，这表明即使是为同构图设计的模型，在某些情况下也能在异构图上取得不错的结果。然而，图神经网络（GNNs）特别是异构图神经网络（如HAN），取得了更好的结果。这说明GNN架构能够利用异构图中的多样化节点特征来提升嵌入的性能。MAGNN在性能上比最佳基线模型（HAN）高出大约4-7%。这一增益表明，元路径实例（metapath instances）包含了比基于元路径的邻居（metapath-based neighbors）更丰富的信息。
在DBLP数据集上，节点分类任务对所有模型来说相对容易，因为几乎所有模型都取得了很高的分数。尽管如此，MAGNN仍然略微领先于其他模型。这些结果表明MAGNN能够有效地处理异构图数据，并在不同的数据集和任务上提供了改进的性能。MAGNN的设计，特别是其对元路径的聚合和利用，使其能够捕获更全面的图结构和语义信息，从而提高了嵌入的质量。

5.2 节点聚类( Node Clustering)

在IMDb和DBLP数据集上进行实验，比较不同模型在节点聚类任务上的性能。将每个学习模型生成的标记节点(IMDb中的电影和DBLP中的作者)的嵌入馈送到K-Means算法中。K-Means中的簇数设置为每个数据集的类数，即IMDb为3,DBLP为4。采用 归一化互信息(NMI)和调整兰德指数(ARI) 作为评价指标。由于K-Means算法的聚类结果高度依赖于质心的初始化，因此对嵌入模型的每次运行重复K-Means 10次，每个嵌入模型都进行10次测试。最终结果如下表所示：
在这里插入图片描述

可以看到，在节点聚类中，MAGNN始终优于所有其他基线模型。
所有模型在IMDb数据集上的聚类性能都比DBLP数据集上差很多。这可能是因为IMDb数据集中的电影标签存在问题：每个电影节点有多个类型，但只选择了第一个类型作为其类别标签。传统的异构图模型在节点聚类任务上并没有比传统的同构图模型表现出更多的优势。 Node2vec基于随机游走的方法，预期在节点聚类任务上表现强劲。这是因为它强制图中接近的节点在嵌入空间中也彼此接近，从而编码了节点的位置信息。K-Means算法基于嵌入向量之间的欧几里得距离对节点进行聚类，Node2vec编码的节点位置信息隐含地有助于此算法。尽管Node2vec有其优势，但 具有异构图意识的图神经网络（如HAN和MAGNN） 在两个数据集上的节点聚类任务中仍然排名第一。这些发现表明，MAGNN不仅能够处理节点的异质性，而且还能有效地捕捉节点之间的关系，生成高质量的嵌入表示。

5.3 链接预测（Link Prediction）

在LastFM数据集上进行实验，评估MAGNN和其他基线模型在链路预测任务中的性能。将已存在的用户-艺术家对作为正样本，随机生成的未连接的用户-艺术家对作为负样本。在训练过程中，MAGNN模型通过最小化损失函数来学习节点的嵌入表示，该损失函数考虑了正负样本对。使用 AUC（Area Under the ROC Curve）和AP（Average Precision） 作为评估链接预测性能的主要指标。最终结果如下表所示：
在这里插入图片描述

可以看出，MAGNN在很大程度上优于其他基准模型。这里最强的传统模型是metapath2vec，它从由单个元路径引导的随机行走生成的节点序列中学习。MAGNN比metapath2vec获得了更好的分数，这表明考虑单个元路径是次优的。在GNN基线中，HAN具有异构感知能力，并结合了多个元路径，因此获得了最好的结果。这一结果表明节点的元路径上下文对节点嵌入至关重要。实验结果表明，MAGNN在链接预测任务上的有效性，特别是在处理包含多种类型节点和关系的异构图时。MAGNN的设计允许它在不同的图分析任务中提供更准确的预测。

5.4 组件有效性（Component Effectiveness）

文章进行 消融实验（Ablation Study） 来单独评估模型中每个组件的作用，通过移除或替换模型中的某些部分（如注意力机制、元路径聚合等），来观察对最终性能的影响。
设 ${MAGNN}_{rot}$ 使用关系旋转编码器的模型为参考模型， ${MAGNN}_{feat}$ 为不利用节点内容特征的等效模型; ${MAGNN}_{nb}$ 只考虑基于元路径的邻居; ${MAGNN}_{sm}$ 考虑单一的最佳元路径; ${MAGNN}_{avg}$ 切换到使用mean元路径实例编码器; ${MAGNN}_{linear}$ 切换到使用线性元路径实例编码器。除了上述不同之外，这些MAGNN变体的所有其他设置都是相同的。请注意LastFM数据集上的 ${MAGNN}_{feat}$ 等同于 ${MAGNN}_{rot}$ ，因为该数据集不包含节点属性。比较各模型的效能如下：
在这里插入图片描述

根据消融实验的结果，得出MAGNN模型中各个组件能够共同作用于提高模型的整体性能。

5.5 节点嵌入可视化（Visualization）

对节点嵌入进行可视化，对嵌入结果进行定性评价。将高维的节点嵌入表示通过技术如t-SNE或PCA降维到二维或三维空间，以便于可视化。下图展示了LastFM数据集上LINE、ESim、GCN和MAGNN的可视化结果，其中红点表示用户，绿点表示艺术家。
在这里插入图片描述

6.优缺点

文章显示MAGNN模型具有显著优点，能够综合考虑图中的多种关系，生成更全面的节点嵌入；同时模型能够整合节点的原始内容特征，提高嵌入的表达能力；利用多注意力头捕获节点邻域的不同方面信息，具有较强的泛化能力；能够处理大规模异构图数据集，具有较好的可扩展性。
但由于多注意力头和复杂的聚合机制，MAGNN的计算复杂度较高；需要注意的是，模型性能可能依赖于正确选择和定义的元路径，这可能需要领域知识；另外模型超参数的调整也具有挑战性。