【论文解读 WWW 2020 | MAGNN】Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

最新推荐文章于 2024-08-18 12:47:37 发布

byn12345

最新推荐文章于 2024-08-18 12:47:37 发布

阅读量1.3w

点赞数 17

分类专栏： NE&GNN 论文文章标签：深度学习

本文链接：https://blog.csdn.net/byn12345/article/details/105101492

版权

论文同时被 2 个专栏收录

72 篇文章 8 订阅

订阅专栏

NE&GNN

36 篇文章 24 订阅

订阅专栏

论文题目：MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

论文来源：WWW 2020

论文链接：https://arxiv.org/pdf/2002.01680.pdf

代码链接：https://github.com/cynricfu/MAGNN

关键词：神经网络，表示学习，社交网络，异质图，attention

本文提出MAGNN模型，正如标题所言，围绕元路径聚合的问题展开，需要人为定义元路径。聚合是指元路径内部的聚合、元路径间的聚合。在建模过程中还融入了节点内容特征的信息（节点属性信息）。

1 引言

本文解决的是异质图的嵌入学习问题。

现有的基于元路径的嵌入学习方法有以下局限性：

（1）忽略节点的内容特征（属性信息），不能很好地处理节点属性特征丰富的异质图。例如 metapath2vec, ESim, HIN2vec, HERec。

（2）舍弃了元路径内部的节点信息，只考虑元路径的起始节点和末尾节点，造成信息损失。例如 HERec, HAN。

（3）只依赖于单个元路径，因此需要人工选择元路径，丢失了来自其他元路径的部分信息，导致性能不佳。例如 metapath2vec。

为了解决上述问题，本文提出MAGNN（Metapath Aggregated Graph Neural Network ）。

MAGNN由三个部分组成：

（1）节点内容转换(node content transformation )，将异质的节点属性信息映射到同一个隐层的向量空间；

（2）元路径内部聚合(intra-metapath aggregation )，使用注意力机制将元路径内部的语义信息纳入考虑；

（3）元路径间的聚合(inter-metapath aggregation )，使用注意力机制从多个元路径聚合信息。

贡献：

（1）提出新的元路径聚合的GNN方法用于异质图的嵌入学习；

（2）设计了几个候选编码器函数，用于从集合实例中提取信息，其中一个基于复杂空间中的关系旋转思想。

（3）在IMDB和DBLP数据集上进行了节点分类和节点聚类任务，在Last.fm数据集上进行了链接预测任务。实验证明使用MAGNN学习得到的节点嵌入表示超越了state-of-the-art baselines的表现。

2 相关定义和符号

异质图、元路径、元路径实例的定义不再赘述。

3 方法

MAGNN由节点内容转换、元路径内部聚合、元路径间的聚合三部分组成，图2展示了一个节点的嵌入生成过程。

3.1 Node Content Transformation

异质图中的不同类型的节点有着不同的属性，因此不同类型的节点的特征向量可能有着不同的维度，即使碰巧维度相同，特征向量也应该属于不同的特征空间。

为了方便统一处理，需要将这些不同类型的节点的特征映射到同一个隐层的向量空间中。具体方法就是对每种类型的节点都使用一个特定的线性转换，来将节点的特征向量转换到同一个隐层的特征空间中。对于类别为 $A\in \mathcal{A}$ 节点 $v\in \mathcal{V}_A$ ，进行如下的转换：

其中 $x_v\in \mathbb{R}^{d_A}$ 是原始的特征向量， $\mathbf{h}^{'}_v\in \mathbb{R}^{d^{'}}$ 是映射后的节点 $v$ 的特征向量。 $W_A\in \mathbb{R}^{d^{'}\times d_A}$ 是对于类型为 $A$ 的节点的参数化权重矩阵。

3.2 Intra-metapath Aggregation

给定元路径 $P$ ，元路径内部聚合层通过对 $P$ 的元路径实例编码，可以学习到目标节点、基于元路径的邻居节点、节点之间的上下文中嵌入的结构信息和语义信息。

定义连接目标节点 $v$ 和它的metapath-based邻居节点 $u\in \mathcal{N}^P_v$ 为 $P (v, u)$ 。

定义 $P (v, u)$ 的内部节点为 ${\{m^{P(v, u)}\}}=P(v, u)\setminus{\{u, v\}}$ 。

（1）元路径内部聚合采用了特殊的元路径实例编码器（metapath instance encoder）将元路径实例中的所有节点的特征转换成向量 $\mathbf{h}_{P(v,u)}\in \mathbb{R}^{d^{'}}$ ：

节点 $v, u$ 之间可能存在多个元路径实例，3.4节介绍了限定的metapath instance encoder的几种选择。

（2）接着使用图注意力层（graph attention layer）加权聚合针对目标节点 $v$ 的且元路径为 $P$ 的多个元路径实例：

其中 $a_P\in \mathbb{R}^{2d^{'}}$ 是元路径 $P$ 的参数化的注意力向量。 $e^P_{vu}$ 表示元路径实例 $P (v, u)$ 对节点 $v$ 的重要性，然后使用softmax进行了归一化，然后使用归一化后的注意力系数对和节点 $v$ 相关的元路径实例的表示进行加权求和。最后再经过一个激活函数。

（3）上述的注意力机制可以扩展成多头的（multi-heads），这有助于学习过程的稳定，并且可以减小图的异质性带来的高方差：

总结：

给出映射后的特征向量 $h^{'}_u\in \mathbb{R}^{d^{'}}, \forall u\in \mathcal{V}$ ，以及一组元路径 $\mathcal{P}_A={\{P_1, P_2, ..., P_M\}}$ 。内部元路径聚合为目标节点 $v$ 生成 $M$ 个针对特定元路径的向量表示，记为 ${\{h^{P_1}_v,h^{P_2}_v, ..., h^{P_M}_v \}}$ ，每个$ h^{P_i}_v\in \mathbb{R}^{d{’}} $（假定$ K=1 $）都表示了节点$ v$中隐含的一种语义信息。

3.3 Inter-metapath Aggregation

使用元路径间的聚合层结合所有元路径的语义信息。

从上一步可知，对于类型为 $A$ 的节点，生成了 $|\mathcal{V}_A|$ 组隐层向量： ${\{h^{P_1}_v, h^{P_2}_v, ..., h^{P_M}_v\}}$ ， $v\in \mathcal{V}_A$ ， $M$ 是 $A$ 类型节点的元路径数目。使用注意力机制为不同的元路径分配不同的权重。

（1）首先，针对每条元路径 $P_i\in \mathcal{P}_A$ ，对所有类型为 $A$ 的节点在特定元路径下的节点向量进行转换，然后取平均：

其中 $M_A\in \mathbb{R}^{d_m\times d^{'}}, b_A\in \mathbb{R}^{d_m}$ 为可学习到的参数。

（2）然后使用注意力机制混合特定元路径下的节点 $v$ 的特征向量：

其中 $q_A\in \mathbb{R}^{d_m}$ 为参数化的针对 $A$ 类型节点的注意力向量。 $\beta_{P_i}$ 可解释为元路径 $P_i$ 对于 $A$ 类型节点的重要性。使用这个注意力系数对节点 $v$ 的所有针对特定元路径的向量进行加权求和。

（3）最后，MAGNN使用线性转换和一层非线性函数，将节点嵌入映射到输出所需维度的向量空间：

其中 $W_o\in \mathbb{R}^{d_o\times d^{'}}$ 是权重矩阵， $\sigma(\cdot)$ 是激活函数。

这个映射针对具体任务有所不同，可以看成是用于节点分类的线性分类器，也可看成是带有节点间相似度度量的空间投影，可用于链接预测。

3.4 Metapath Instance Encoders

本节对应3.2（2）式中的元路径实例编码函数 $f_{\theta}$ ，作者给出了三个候选的编码函数：

（1）Mean encoder：

（2）Linear encoder

是mean encoder的扩展，区别在于添加了一个线性转换。

（3）Relational rotation encoder

基于在复杂空间的关系旋转（relation rotation）的元路径实例编码器。这一操作是RotatE[1]提出的，原文做的是知识图谱的嵌入学习。

mean encoder 和 linear encoder将元路径实例看作了一个集合，忽视了元路径序列结构中嵌入的信息。关系旋转的方法提供了建模这一类知识的方法。

给定 $P(v, u)=(t_0, t_1, ..., t_n), t_0=u, t_n=v$ ， $R_i$ 为节点 $t_{i-1}, t_i$ 之间的关系。令 $\mathbf{r}_i$ 为 $R_i$ 的向量表示。Relational rotation encoder可形式化为：

其中， $\mathbf{h}^{'}_{t_i}, \mathbf{r}_i$ 是复杂的向量， $\odot$ 表示元素间乘积。可将 $d^{'}$ 维的真实向量（ $\mathbf{h}_{P(v,u)}$ ）看成是一个复杂的向量，它的前 $d^{'}/2$ 维是真实的部分，后 $d^{'}/2$ 为虚构的部分。

MAGNN前向传播算法如下：

3.5 训练

经过上述的三个部分，得到了最终的节点表示，可用于下游任务。

由于不同任务的特点不同，而且不一定能得到节点标签。因此为MAGNN设计了两种学习范式：半监督学习、无监督学习。

（1）半监督学习

最小化交叉熵损失：

其中， $\mathcal{V}_L$ 是有标签的节点集合， $C$ 是类别数目， $\mathbf{y}_v$ 是节点 $v$ 的one-hot向量， $\mathbf{h}_v$ 是模型输出的节点 $v$ 的向量表示。

（2）无监督学习

使用负采样技术，最小化如下的损失函数：

其中， $\Omega$ 是正样本集合， $\Omega^{-}$ 是负样本集合。

4 实验

实验回答了以下几个问题：

MAGNN在节点分类任务上表现如何？
MAGNN在节点聚类任务上表现如何？
MAGNN在链接预测任务上表现如何？
MAGNN的三个主要组成部分对其有什么样的影响？
如何理解不同图嵌入方法的表示学习能力？

数据集：

IMDb、DBLP、Last.fm

**实验任务：**节点分类、节点聚类、链接预测

对比方法：

LINE：同质图模型，使用了节点间的一阶和二阶相似度；
node2vec：同质图模型；
ESim：异质图模型，从采样到的元路径实例中学习节点嵌入；
metapath2vec：异质图模型，元路径指导下得到的随机游走路径输入到skip-gram模型中，得到节点嵌入；
HERec：异质图模型，使用元路径将异质图转化为同质图，再在其上面进行随机游走；
GCN：同质图GNN；
GAT：同质图GNN；
GATNE：异质图GNN，使用基类嵌入和边嵌入学习到节点表示，聚焦于链接预测任务；
HAN：异质图GNN，从基于元路径的同质图学习到特定元路径下的节点嵌入，使用注意力机制进行聚合。

实验结果：

（1）节点分类实验结果(RQ1)

（2）节点聚类实验结果(RQ2)

（3）链接预测实验结果(RQ3)

（4）消融实验(RQ4)

$MAGNN_{rot}$ 使用了relation rotation encoder，作为参考模型；
$MAGNN_{feat}$ 没有使用节点内容特征；
$MAGNN_{nb}$ 只考虑了基于元路径的邻居；
$MAGNN_{sm}$ 考虑了单个最好的元路径；
$MAGNN_{avg}$ 使用了mean对元路径实例进行编码；
$MAGNN_{linear}$ 使用了linear对元路径实例进行编码。

$MAGNN_{nb}$ 和 $MAGNN_{avg}, MAGNN_{linear}, MAGNN_{rot}$ 相比，可以看出聚合元路径实例比metapath-based邻居带来的提升更多，验证了元路径内部聚合（intra-metapath aggregation）的有效性。

比较 $MAGNN_{sm}$ 和 $MAGNN_{rot}$ 可以看出元路径间聚合（intre-metapath aggregation）的有效性。

比较 $MAGNN_{avg}, MAGNN_{linear}, MAGNN_{rot}$ 可以看出，使用relational rotation encoder可带来提升。这三个变形都比目前最好的baseline HAN要表现好。

（5）可视化(RQ5)

5 总结

本文提出元路径聚合的GNN模型——MAGNN，解决现有异质图嵌入方法的三个缺点：

（1）忽略节点的内容特征；

（2）不考虑元路径内部的节点；

（3）只考虑单个元路径。

MAGNN由三个部分组成，分别解决了上述的三个问题：

（1）节点内容转换(node content transformation)

（2）元路径内部聚合(intra-metapath aggregation)

（3）元路径间的聚合(inter-metapath aggregation)

另外，本文还定义了元路径实例编码器，以抽取出元路径实例中的结构信息和语义信息。提出3个候选的编码函数，其中relation rotation encoder是受RotatE启发的。

在真实数据集上进行了节点分类、节点聚类、链接预测三个任务，达到state-of-the-art。

未来方向：将MAGNN应用到rating prediction任务中（例如推荐任务）。

本文正如标题所示，一目了然，方法围绕元路径的聚合展开。聚合具体分为元路径内部的聚合、元路径间的聚合。

聚合当然少不了注意力机制，这两个聚合都使用到了注意力机制，还引入了多头注意力（multi-head attention）。

MAGNN在建模的过程中还使用了节点的属性信息，GATNE[2]模型也考虑到了这一点，实验中也和此方法进行了对比。

比较创新的地方是考虑到了元路径的内部结构，使用元路径实例编码器（metapath instance encoder）进行了元路径的内部聚合。

一共对比了3种元路径实例编码器：mean, linear, relation rotation

实验效果显示relation rotation的效果最好，因为它考虑了元路径中每两个相邻节点间的关系。但是实验结果显示relation rotation和mean差别不是很大。

需要注意的是，MAGNN还是需要人为定义元路径。GTNs[3]是自动生成元路径，并且在节点分类任务上也超越了HAN，本文的MAGNN没有和GTNs进行对比。

另外同样被WWW 2020接收的HGT[4]，也是不需要预先定义元路径，且在节点分类、链接预测任务上也表现出了很好的效果，超越了HAN。不知道HGT和MAGNN相比的话会怎么样呢。

参考文献

[1] Zhiqing Sun, Zhi-Hong Deng, Jian-Yun Nie, and Jian Tang. 2019. RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space. In ICLR.

[2] Yukuo Cen, Xu Zou, Jianwei Zhang, Hongxia Yang, Jingren Zhou, and Jie Tang. 2019. Representation Learning for Attributed Multiplex Heterogeneous Network. In SIGKDD. 1358–1368.

[3] Seongjun Yun, Minbyul Jeong, Raehyun Kim, Jaewoo Kang, Hyunwoo J.Kim. 2019. Graph Transformer Networks. In NeurIPS.

[4] Ziniu Hu, Yuxiao Dong, Kuansan Wang, Yizhou Sun. 2020. Heterogeneous Graph Transformer. 2020. In WWW.