论文阅读（1）Heterogeneous Graph Transformer

最新推荐文章于 2024-08-22 09:56:06 发布

云云~~

最新推荐文章于 2024-08-22 09:56:06 发布

阅读量563

点赞数 8

分类专栏：图神经网络文章标签：论文阅读深度学习

本文链接：https://blog.csdn.net/m0_73723164/article/details/140847180

版权

图神经网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Heterogeneous Graph Transformer

论文链接：https://arxiv.org/pdf/2003.01332

代码链接：

https://arxiv.org/pdf/1909.01315
https://github.com/acbull/pyHGT

关键词：图神经网络、HGT

研究目的

现有的GNN方法的不足：

以HAN, GTNs, HetGNN等方法为例。

（1）大多数方法需要为异质图设计元路径

（2）要不就是假定不同类别的节点/边共享相同的特征和表示空间，要不就是单独为某一类型的节点和边设计不同的不可共享的参数。这样的话不能充分捕获异质图的属性信息；

（3）大多数方法都没有考虑异质图的动态特征；

（4）不能建模Web-scale的异质图。

进行异质图神经网络的研究，目的是：

保留节点和边类型的有依赖关系的特征
捕获网络的动态信息
避免自定义元路径
并且可扩展到大规模（Web-scale）的图上

Heterogeneous Graph Transformer

在这里插入图片描述

给定采样的异质子图，HGT抽取出了所有有连边的点对，输入进HGT层

HGT层的目的是从源节点聚合信息，获得目标节点的上下文表示。这属于node embedding部分，为下游任务做准备。

HGT可被分解成3个部分

异质互注意力(Heterogeneous Mutual Attention)
异质消息传递(Heterogeneous Message Passing )
针对特定任务的聚合(Target-Specific Aggregation)。

通过堆叠L层HGT，得到整个图的节点表示 $H^{(L)}$ ，然后用于端到端的训练或者输入给下游任务。

整个框架中，高度依赖于元关系—— $<\tau(s), \phi(e), \tau(t)>$ 来参数化权重矩阵。和现有的维每个元路径维护一个矩阵的方法相比，HGT的三元组参数可以更好地利用异质图的schema来实现参数共享。

一方面，这样的参数共享有助于利用出现频次较少的类型的边，从而实现快速的自适应和泛化。

另一方面，使用较少的参数，仍然实现了保留不同类型边的特征。

Heterogeneous Mutual Attention

此部分的作用是：计算两个相连点之间的注意力（重要性）。

The general attention-based GNNs as follows:
$H^l[t] \underset{\forall s\in N(t),\ \forall e\in E(s,t)}{\leftarrow \text{Aggregate}}\left(\text{Attention}(s, t) \cdot \text{Message}(s)\right)$
三个基础算子：

Attention : estimate the importance of each source node
Message : extract the message by using only the source nodes
Aggregate : aggregate the neighborhood message by the attention weight.

Graph Attention Network(GAT) 所使用的三个算子公式如下：
$\text{Attention}_{\text{GAT}}(s, t) = \underset{s \in N(t)}{\text{Softmax}}\left(\vec{a}(W H^{(l-1)}[t] \| W H^{(l-1)}[s])\right) \\ \text{Message}_{\text{GAT}}(s) = W H^{(l-1)}[s] \\ \text{Aggregate}_{\text{GAT}}(\cdot) = \sigma\left(\text{Mean}(\cdot)\right)$

注意力机制公式：公式定义了计算两个节点 s 和 t之间注意力分数的方法。其中：
$\vec{a}$ 是一个可学习的权重向量，用于计算节点 t和其邻居 s之间的注意力分数
W是权重矩阵，用于将节点的特征从一层传递到下一层

消息传递公式：公式定义了如何从邻居节点 s 传递消息。其中：
W是权重矩阵，用于将邻居节点 s的特征转换为新的特征表示。

聚合操作公式：定义如何聚合来自邻居节点的所有消息以更新目标节点 t的表示。其中：
Mean表示对所有邻居节点的消息取平均值。
σ是一个非线性激活函数，用于引入非线性特性。

GAT的缺陷：GAT assumes that s and t have the same feature distributions by using one weight matrix $W$ . Such an assumption is usually incorrect for heterogeneous graphs, where each type of nodes can have its own feature distribution.

文章改变了注意力计算的方式，公式如下：
$\text{Attention}_{\text{HGT}}(s, e, t) = \underset{\forall s\in N(t)}{\text{Softmax}}\left(\underset{i\in [1,h]}{||} \text{ATT-head}^i(s, e, t)\right) \\ \text{ATT-head}^i(s, e, t) = \left(K^i(s)W^{\text{ATT}}_{\phi(e)} Q^i(t)^T\right)\frac{\mu \langle \tau(s), \phi(e), \tau(t) \rangle}{\sqrt{d}} \\ K^i(s) = \text{K-Linear}^i_{\tau(s)}\left(H^{(l-1)}[s]\right) \\ Q^i(t) = \text{Q-Linear}^i_{\tau(t)}\left(H^{(l-1)}[t]\right)$

注意力机制公式：计算目标节点 t与其邻居节点 s之间的注意力分数。其中：
h 是注意力头（attention heads）的数
|| 表示将所有注意力头的分数拼接起来

注意力头公式：定义了单个注意力头是如何计算的。其中：
$W^{\text{ATT}}_{\phi(e)}$ 是与边 e的类型相 $\phi(e)$ 关的注意力权重矩阵。
μ是一个用于调整注意力分数的标量（先验知识）
d是向量的维度，用于缩放点积的计算结果

键向量和查询向量投影公式：定义了如何将节点 s和 t 的隐藏表示通过线性变换投影到对应的键向量和查询向量
K-Linear 函数：
K-Linear（Key Linear）函数用于将源节点 s的特征 $H^{l−1}[s]$ 投影到所谓的“键”（Key）空间。
在注意力机制中，键向量用于与查询向量进行比较，以计算注意力分数。
K-Linear 函数通常依赖于节点的类型 $\tau{s}$ ，这意味着不同类型的节点将使用不同的线性变换矩阵来投影其特征，从而捕捉不同类型的特定特征。

Q-Linear 函数：
Q-Linear（Query Linear）函数用于将目标节点 t的特征 $H^{l−1}[t]$ 投影到“查询”（Query）空间。
查询向量是注意力机制中的另一个关键组成部分，它与键向量相结合，确定目标节点应该如何聚合来自其邻居节点的信息。
类似于 K-Linear，Q-Linear 函数也依赖于节点的类型 $\tau(t)$ ，确保不同类型的目标节点可以有不同的查询表示。

在这里插入图片描述

Heterogeneous Message Passing

$\text{Message}_{HGT}(s, e, t) = \underset{i\in [1,h]}{||}\text{MSG-head}^i(s, e, t) \\ \text{MSG-head}^i(s, e, t) = \text{M-Linear}^i_{\tau(s)}\left(H^{(l-1)}[s]\right)W^{\text{MSG}}_{\phi(e)}$

每个节点的信息通过一个线性层变成 $\frac dh$ 维度，右乘与边的类型相关的矩阵得到单个MSG-head，通过h个head拼接得到完整的信息。

Target-Specific Aggregation

$\grave H^{(l)}[t] = \sum_{s \in N(t)} \left(\text{Attention}_{\text{HGT}}(s, e, t) \cdot \text{Message}_{\text{HGT}}(s, e, t)\right) \\ H^{(l)}[t] = \text{A-Linear}_{\tau(t)} \left( \sigma \grave H^{(l)}[t]\right) + H^{(l-1)}[t]$

残差连接：

在HGT中，残差连接通常用于将节点在前一层的表示 $H^{(l−1)}[t]$ 直接添加到通过消息传递和注意力机制计算得到的更新表示上 $H^{(l)}[t]$ ，以此来增强模型的表达能力。这种结构使得模型能够同时考虑局部邻域信息和跨层的特征信息，从而提高对图结构的捕捉能力

Relative Temporal Encoding

通过相对时序编码处理动态异构图

在这里插入图片描述

给定源节点s和目标节点t，以及它们对应的时间戳T(s) , T(t)。定义相对时间间隔为 $\Delta T(t,s)=T(t)−T(s)$ ，作为得到相对时间编码 $RTE(\Delta T(t,s))$ 的索引。

注意训练集不会覆盖到所有可能的时间间隔，因此RTE要具有泛化到不可见的时间和时间间隔的能力。作者采取了一组固定的正弦函数作为偏置，并使用了可微调的线性映射构成RTE：

$\text{Base}(\Delta T(t, s), 2i) = \sin\left(\frac{\Delta T_{t,s}}{10000^\frac{2i}{d}}\right) \\ \text{Base}(\Delta T(t, s), 2i + 1) = \cos\left(\frac{\Delta T_{t,s}}{10000^\frac{2i+1}{d}}\right) \\ \text{RTE}(\Delta T(t, s)) = \text{T-Linear} \left(\text{Base}(\Delta T_{t,s})\right)$