HGTConv

静心问道

已于 2022-03-15 16:26:22 修改

阅读量2.4k

点赞数

分类专栏：图神经网络文章标签： GNN

于 2022-02-01 14:56:56 首次发布

本文链接：https://blog.csdn.net/qq_39698985/article/details/122764134

版权

图神经网络专栏收录该内容

10 篇文章 2 订阅

订阅专栏

HGTConv

论文名称：Heterogeneous Graph Transformer

论文地址：https://arxiv.org/pdf/2003.01332.pdf

在本文，我门使用Heterogeneous Graph Transformer (HGT) 架构对 Web-scale 异构网络进行建模。为了对异构网络进行建模，我们设计节点和边存在依赖关系参数，对每条边进行attention操作，HGT能够表征不同类型的节点和边。为了处理动态异构图，我们引进相对时间的编码技巧，它能够任意持续捕捉结构的依赖关系。为了处理Web-scale 图数据，我们设计mini-batch 图采样算法，HGSampling, 能够有效弹性的训练。

1.1 Heterogeneous Graph Mining

异构图是对复杂现实世界关系的重要抽象。

Definition 1. Heterogeneous Graph: 异构网络定义为有向图， $G=(\mathcal{V},\mathcal{E},\mathcal{A},\mathcal{R})$ , 其中每个节点 $v\in \mathcal{V}$ 和每条边 $e\in\mathcal{E}$ 和它们类型的映射关系 $\tau(v): V \rightarrow \mathcal{A}$ 和 $\phi(e):E\rightarrow \mathcal{R}$ 。

Meta Relation. 对于一条边 $e = (s, t)$ ，其中 $s$ 指source node， $t$ 为target node, 其中，meta relation为 $\langle\tau(s), \phi(e), \tau(t)\rangle$ 。 $\phi(e)^{-1}$ 为 $\phi(e)$ 取逆。

为了更好地刻画现实中的异构网络，不同类型节点之间存在多重的关系。例如, author和paper之间存在第一作者、第二作者关系。

Dynamic Heterogeneous Graph. 为了更好地对刻画异构网络的动态属性，我们在时刻 $T$ 分配节点 $s$ 到节点 $t$ 一条边 $e = (s, t)$ 。随着时间推移， $s$ 和 $t$ 之间存在多个时间戳。

换句话说，边的时间戳一旦创建就不会改变。当然可给边分配多个时间戳。

1.2 Graph Neural Network

通常，GNN作为图计算框架，将网络结构作为输入，用于message passing，局部的邻居信息进行汇总获得更加丰富的上下文表征。

Definition 2. General GNN Framework: 设 $H^l[t]$ 是node $t$ 在 $(l)$ -th GNN layer的节点表征，从 $(l - 1)$ -th到 $(l)$ -th更新方式如下：
$H^{l}[t] \leftarrow \underset{\forall s \in N(t), \forall e \in E(s, t)}{\text { Aggregate }}\left(\operatorname{Extract}\left(H^{l-1}[s] ; H^{l-1}[t], e\right)\right)\tag{1}$
其中, $N (t)$ 指节点 $t$ 的所有的source nodes。 $E (s, t)$ 指从节点 $s$ 到节点 $t$ 所有的边。

GNN最重要的两个算子 $\mathbf{Extract(\cdot)}$ 和 $\mathbf{Aggregate(\cdot)}$ ，其中， $\mathbf{Extract(\cdot)}$ 代表邻居节点信息的提取。它提取的信息包括source nodes 表征 $H^{l-1}[s]$ ，目标节点的表征 $H^{l-1}[t]$ 和两者之间边 $e$ 。 $\mathbf{Aggregate(\cdot)}$ 将source nodes的邻居信息进行聚合，使用一些聚合算子例如：mean, sum, max, 也可以设置一些复杂的卷积、标准化。

在这个框架下，已经演化出各种同构网络的GNN架构，例如，k. Kipf提出GCN使用one-hop邻居进行均值聚合，然后进行线性和非线性变换。Hamilton提出使用GraphSAGE进行聚合，聚合算子包括均值、求和、最大值、RNN。 Velickovi 提出使用GAT, 将邻居节点赋予不同权重。

1.3 Heterogeneous GNNs

Schlichtkrull提出RGCN用于知识图谱，它对每个类型的边使用不同线性仿射变换。. Zhang提出HetGNN采用对不同节点类型采用不同RNN, 构建多模态特征。Wang扩展注意力机制，将不同meta-path-defined边赋予不同的权重。使用高阶予以注意力汇总不同的meta paths的信息。

尽管这些模型比GCN、GAT效果好，但是由于不同类型的边数量差异比较大。有些关系的数据不充分，很难学出准确的权重。为了解决这个问题，我们提出共享参数，增强模型的泛化能力。定义一条边 $e = (s, t)$ , 它们的meta relation为 $\langle\tau(s), \phi(e), \tau(t)\rangle$ , 我们使用三个交互矩阵对 $\tau(s),\phi(e)$ 和 $\tau(t)$ 进行建模，然后，它们的权重是共享的。例如： “the first author of“和“the second author of”两个关系，它们的source 和target node都是author和paper。换句话说，author和paper可以从一个关系中学习，迁移到另一个关系中。我们使用Transformer-like attention结构整合了这个思想。

HGT使用以下创新：
（1）之前都是独立考虑节点和边的类型，本文使用meta-path $\langle \tau(s),\phi(e),\tau(t)\rangle$ 分解两者之间的交互信息和转移矩阵。

（2）现在meta-path主要定制，手工配置，我们采用自动学习高阶异构网络的邻居信息。

（3）考虑动态图，提出时间相对编码技术。

（4）针对Web-scale 图，提出Mini-Batch采样算法。

2 HETEROGENEOUS GRAPH TRANSFORM

使用meta relations 对attention， message passing和propagation进行参数化，采用相对时间编码机制，整合动态网络。

2.1 Overall HGT Architecture

在这里插入图片描述

Figure 2展示Heterogeneous Graph Transformer整体的架构。给定一个异构网络的子图，HGT提取出所有的节点对,target node $t$ 和source node $s$ 之间的边为 $e$ ， HGT的目标就是汇总source的信息，获得target node $t$ 上下文表示。整个过程可以分解为三个阶段： Heterogeneous Mutual Attention, Heterogeneous Message Passing and Target-Specific Aggregation。

我门将HGT $(l)$ -th的输出记作 $H^{(l)}$ ，它作为 $(l + 1)$ -th的输入。通过stack L layers，我们可以得到整个图的节点表示 $H^{(L)}$ , 可以用于端到端的下游训练任务。

2.2 Heterogeneous Mutual Attention

我们第一步介绍一下source节点 $s$ 和target节点 $t$ 之间的mutual attention。首先我们引进通用的attention-based GNN:
$H^{l}[t] \leftarrow \underset{\forall s \in N(t), \forall e \in E(s, t)}{\text { Aggregate }}(\text { Attention }(s, t) \cdot \operatorname{Message}(s))\tag{2}$
其中，包括3个基础算子：Attention, 估计每个source node重要性；Message,提取source node $s$ 的信息；Aggregate, 使用attention weight对邻居进行加权聚合。

举例来说，GAT采用加法机制作为Attention, 使用相同的权重计算Message, 使用相同的权重和非线性激活函数进行Aggregate. GAT表示如下：
$\begin{aligned} \text { Attention }_{G A T}(s, t) &=\underset{\forall s \in N(t)}{\operatorname{Softmax}}\left(\vec{a}\left(W H^{l-1}[t] \| W H^{l-1}[s]\right)\right) \\ \text { Message }_{G A T}(s) &=W H^{l-1}[s] \\ \text { Aggregate }_{G A T}(\cdot) &=\sigma(\operatorname{Mean}(\cdot)) \end{aligned}$
尽管GAT会对重要的节点给出high attention，但是假设 $s$ 和 $t$ 有相同的特征分布，使用同一个权重矩阵 $W$ 。但是这个假设对于异构网络是不正确的，异构网络中，每种类型的节点应该有自己的特征分布。

鉴于这种限制，我们设计Heterogeneous Mutual Attention机制。给定目标节点 $t$ ，它们的邻居节点 $s\in N(t)$ , 它们可能属于不同的分布，我们利用meta relations（例如, $\langle\tau(s), \phi(e), \tau(t)\rangle$ ）对其进行分组，计算mutual attention。

受Transformer结构的启发，我们将target node $t$ 作为Query， source node $s$ 为Key Vector，他们的dot product作为attention。普通Transformer对所有单词使用一组映射，但是在我们meta relation包括多种 project weights。在保证最大化参数共享的同时，保证不同relation的个性化，我们将source node projection, edge projection, target node projection进行参数化。具体来说，我们计算边 $e (s, t)$ 的 $h$ -head attention方式如下：
$\text { Attention }_{H G T}(s, e, t)=\underset{\forall s \in N(t)}{\operatorname{Softmax}}\left(\prod_{i \in[1, h]}{\|} \text { ATT-head }^{i}(s, e, t)\right)\tag{3}$

$\begin{aligned} A T T \text {-head }^{i}(s, e, t) &=\left(K^{i}(s) W_{\phi(e)}^{A T T} Q^{i}(t)^{T}\right) \cdot \frac{\mu_{\langle\tau(s), \phi(e), \tau(t)\rangle}}{\sqrt{d}} \\ K^{i}(s) &=\text { K-Linear }_{\tau(s)}^{i}\left(H^{(l-1)}[s]\right) \\ Q^{i}(t) &=\text { Q-Linear }_{\tau(t)}^{i}\left(H^{(l-1)}[t]\right) \end{aligned}$

首先，对于 $i$ -th attention head $ATT-head^{i}(s,e,t)$ , 我们将 $\tau(s)$ -type source node $s$ 映射为 $i$ -th Key vector $K^i(s)$ , 使用线性仿射 $\text{K-linear}_{\tau(s)}^i$ : $\mathbb{R}^{d} \rightarrow \mathbb{R}^{\frac{d}{h}}$ , 其中， $h$ 是head的数量， $\frac{d}{h}$ 是每个head的维度。需要注意的是 $\text{K-linear}_{\tau(s)}^i$ 是指source的节点类型为 $\tau(s)$ ,每个类型的节点都有唯一的线性仿射变换。类似地，target 节点 $t$ 通过 $\text{K-linear}_{\tau(t)}^i$ 变换为 $i\text{-th}$ Query vector。

其次，我们需要计算Query vector $Q^{i}(t)$ 和Key vector $K^{i}(s)$ 的相似度。异构网络中，两个节点对之间存在多个多种类型的边。普通的Transformer直接计算Query和Key之间的dot product, 我们每个边 $\phi(e)$ 都会有个矩阵 $W_{\phi(e)}^{A T T} \in \mathbb{R}^{\frac{d}{h}} \times \frac{d}{h}$ 。这样，即使两个节点对相同（由于关系不同），模型能够捕捉不同的语义关系。此外，不是所有的relationships对target 节点有相同贡献，我们会增加先验向量 $\mu \in \mathbb{R}^{|\mathcal{A}| \times|\mathcal{R}| \times|\mathcal{A}|}$ 表示每个meta relation triplet重要性，会根据根据attention进行自适应调整。

最后将 $h$ 个头进行拼接，获得每个节点对attention。然后，对每个target node $t$ ，我们收集它的所有邻居 $N (t)$ , 然后进行softmax，实现 $\sum_{\forall s \in N(t)}$ Attention $_{H G T}(s, e, t)=1_{h \times 1}$ 。

2.3 Heterogeneous Message Passing

和mutual attention并行计算，我们将source nodes 信息传递给target nodes（Figure 2(2））。和attention的过程类似，我们将边的meta relations应用到message passing中去，减轻node类型和edges类型的分布的差异性。对于一个节点对 $e = (s, t)$ ，我们计算Message多头：
$\text { Message }_{H G T}(s, e, t)=\|_{i \in[1, h]} \text { MSG-head }^{i}(s, e, t)\tag{4}$
其中， $M S G - h e a d$ 计算如下：
$d^{i}(s, e, t)=\text { M-Linear }_{\tau(s)}^{i}\left(H^{(l-1)}[s]\right) W_{\phi(e)}^{M S G}$
为了获得 $i\text{-th}$ message head $M S G$ -head $^{i}(s, e, t)$ ，我们将 $\tau(s)\text{-type}$ source node 通过线性变换 $\text{M-Linear}_{\tau(s)}^{i}: \mathbb{R}^{d} \rightarrow \mathbb{R}^{\frac{d}{h}}$ 映射为 $i\text{-th}$ message。接下来，通过 $W_{\phi(e)}^{M S G} \in \mathbb{R} \frac{d}{h} \times \frac{d}{h}$ 加入边的依赖信息。然后，将 $h$ message heads 拼接在一起可以得到节点对的Message $_{H G T}(s, e, t)$ 。

2.4 Target-Specific Aggregation

异构multi-head attention和message计算完成后，我们需要汇总source nodes到target node（见 Figure 2(3)）。需要注意的是，Eq.3已经对target node $t$ 进行了求和、softmax操作。接下来，我门只需要将attention向量作为权重对message进行加权平均，更新向量 $\widetilde{H}^{(l)}[t]$ ：
$\widetilde{H}^{(l)}[t]=\oplus_{\forall s \in N(t)}\left(\text { Attention }_{H G T}(s, e, t) \cdot \text { Message }_{H G T}(s, e, t)\right)$
这个公式将邻居特征信息（source nodes）汇总到target node $t$ 。

最后一步是将target node $t$ 的vector还原到指定的节点类型node type $\tau(t)$ 。我们使用线性变换函数 $\text{A-linear}_{\tau(t)}$ 和参差连接，更新向量 $\widetilde{H}^{(l)}$ ：
$H^{(l)}[t]=\text { A-Linear }_{\tau(t)}\left(\sigma\left(\widetilde{H}^{(l)}[t]\right)\right)+H^{(l-1)}[t]\tag{5}$
通过这种方式，我们获得目标节点 $t$ 的 $l\text{-th}$ HGT layer的输出 $H^{(l)}[t]$ ，由于单层Layer刻画能力不足，我们会将 $L$ 层layers进行stack，使得每个节点能够对网络中的绝大数不同类型和关系的节点产生影响。HGT会对每个node产生上下文表达 $H^{(L)}$ , 它可以输入到下游任务，用户节点分类和链路预测。

整个模型架构，为了学习各自的权重矩阵，我们非常依赖meta relation, $-\langle\tau(s), \phi(e), \tau(t)\rangle$ 。这使得我们在效果和效率之间进行平衡。和普通的Transformer相比，我们模型对不同关系进行建模。通过HGT的三元组构建，可以使得参数共享，使得少量样本能够快速收敛，增强样本泛化能力。

2.5 Relative Temporal Encoding

接下来，我们将HGT使用 the Relative Temporal Encoding (RTE) 技术处理图的动态性。

传统处理动态图的方法是根据时间构建多个图的切片。但是，这种处理方式会失去图之间的依赖性。同时，某个节点在时刻 $t$ representation 依赖于其他时间切片。因此，我们设计合适方法能够刻画不同之间节点和边之间的相互影响。

我们采用the Relative Temporal Encoding (RTE) 刻画异构网络之间的动态依赖关系。RTB是受Transformer positional enconding method启发，已经证明，它能够捕捉文本之间的依赖关系。

特别地，给定source node $s$ 和 target node $t$ ，与之相对应的时间从 $T (s)$ 到 $T (t)$ , 相对之间差 $\Delta T(t, s)=T(t)-T(s)$ 作为relative temporal encoding $R T E (∆ T (t, s))$ 的index。训练集不能覆盖所有time gaps，因此，RTB需要对unseen times具备泛化能力。因此，我们采用正弦函数作为基础，使用线性变换 $\text{T-Linear}^*:\mathbb{R}^d\rightarrow \mathbb{R}^d$ 作为RTE:
$\operatorname{Base}(\Delta T(t, s), 2 i)=\sin \left(\Delta T_{t, s} / 10000^{\frac{2 i}{d}}\right)\tag{6}$

$\operatorname{Base}(\Delta T(t, s), 2 i+1)=\cos \left(\Delta T_{t, s} / 10000^{\frac{2 i+1}{d}}\right)\tag{7}$

$E(\Delta T(t, s))=\text { T-Linear }\left(\operatorname{Base}\left(\Delta T_{t, s}\right)\right)\tag{8}$

最后，我们将target node $t$ 的 the temporal encoding relative和source node representation相加。
$\widehat{H}^{(l-1)}[s]=H^{(l-1)}[s]+R T E(\Delta T(t, s))\tag{9}$
通过这种法方式， the temporal augmented representation $\widehat{H}^{(l-1)}$ 能够捕捉source node $s$ 和 target node $t$ 的 relative temporal information. RTE的整体流程如Figure 3。

在这里插入图片描述

3 WEB-SCALE HGT TRAININ

在本节，我们将说明HGT如何使用异构网络的动态信息进行训练，包括 HGSampling（ Heterogeneous Mini-Batch Graph Sampling algorithm）和 inductive timestamp assignment method。

3.1 HGSampling

Full-batch GNN是指每个Layer学习所有的节点表示，它不适合Web-scale graphs。为了解决这个问题，出现了很多采样的方法，构建子图。由于异构网络节点类型和度的差异比较大，构建子图不均衡的，这些方法不适合异构网络。

我们使用HGSampling能够处理异构网络，存在两个优势：1）能够保证每种节点和边的类型有相似的数量。2) 能够最小化子图的信息损失和采样方差。

在这里插入图片描述

Algorithm 1描述了HGSampling算法，它的基本思想是将每个node type $\tau$ 分割成node budget $B[\tau]$ , 采用重要性采样策略减少采样方差，每个类型抽取相同的数量。如果 node $t$ 已经被采样，我们将它的直接邻居添加到budget，添加的方式如Algorithm 2，在line 8中，我们将node $t$ 的标准化degree应用到它的邻居.然后，他们会用于抽样的概率。这种标准化方式会使得已经被抽样节点的邻居节点概率在随机游走的过程中得到累积，避免被high-degree nodes主导。这个概率越高，被抽样的概率越大。

在这里插入图片描述

budget 被更新后，我们在Algorithm 1中line 9计算抽样概率，然后对每个budget中每个node $s$ 计算累积标准化度的平方。已经被其他人证明，这种方式能够减少采样方差。然后，我们在type $\tau$ 中，使用计算的概率，抽取 $n$ 个节点，将抽样的节点添加到output node set，更新他们neighborhood到buget中，并将被抽样的节点在budget中移除，如lines 12-15。重复这个过程 $L$ 次，我们获得深度为 $L$ 的抽样子图。最后，我们重构抽样节点的临接矩阵。通过这种方式获得子图用于WEB-scale异构网络的GNN训练。

3.2 Inductive Timestamp Assignment

我们假设每个节点 $t$ 都会分配一个时间戳 $T (t)$ 。但是，现实世界很多节点都不是一个固定的时间。因此，我们需要给它分配不同的时间戳。我们称这些节点为plain nodes。例如 WWW会议在1974年和2019年分别举行一次，两次会议的主题差异非常大，因此，我们需要给WWW node分配一个时间戳。

如果存在异构网络中存在事件节点，它们会有明确的时间戳。例如，paper node应该依赖于出版社的出版日期。

我们建议对plain nodes基于关联的event nodes使用inductive timestamp assignment algorithm. 该算法如Algorithm 2中line 6。这个思想是指plain nodes继承事件时间戳。我们需要测试source node是都是event nodes。如果是事件节点，例如论文的出版时间，我们保留他们的时间戳。如果不是，像会议这种plain node，我们分配与之相关节点的时间戳，例如，论文的出版时间。通过这种方式，我们可以对 sub-graph中每个节点分配一个时间戳。