HANConv

最新推荐文章于 2023-10-13 20:30:45 发布

静心问道

最新推荐文章于 2023-10-13 20:30:45 发布

阅读量499

点赞数

分类专栏：图神经网络文章标签：深度学习算法

本文链接：https://blog.csdn.net/qq_39698985/article/details/122506918

版权

图神经网络专栏收录该内容

10 篇文章 2 订阅

订阅专栏

HANConv

论文名称: Heterogeneous Graph Attention Network

论文链接: https://arxiv.org/pdf/1903.07293.pdf

异构网络的Attention包括节点层面和语义层面的, 具体来说节点层面是指基于metapath节点和它邻居之间的重要性. 而语义层面是指学习不同metapath之间的重要性．

在这里插入图片描述

节点层面Attention

由于是异构网络，不同的节点类型有不同的特征，因此对每种类型的节点 $\phi_i$ ，节点类型转移矩阵 $\text{M}_{\phi_i}$ 将不同的节点类型映射到相同的特征空间．
$\mathbf{h}_{i}^{\prime}=\mathbf{M}_{\phi_{i}} \cdot \mathbf{h}_{i} \tag{1}$
其中， $h_i$ 和 $h_i^{\prime}$ 是节点 $i$ 的原始特征和映射特征。

针对不同类型节点权重的学习，设在meta-path $\Phi$ 下，节点 $j$ 对节点 $i$ 的重要程度可以用 $e_{ij}^{\Phi}$ 表示。
$e_{i j}^{\Phi}=att_{node }\left(\mathbf{h}_{i}^{\prime}, \mathbf{h}_{j}^{\prime} ; \Phi\right)\tag{2}$
$att_{node}$ 表示node-level attention。给定meta-path $\Phi$ , $att_{node}$ 对于所有meta-path都是共享的。Eq.(2)显示，给定meta-path $\Phi$ , 节点对 $(i, j)$ 取决于它们的特征， $e_{i j}^{\Phi}$ 是非对称的，节点 $i$ 对节点 $j$ 的特征重要性和节点 $j$ 对节点 $i$ 的重要性是不一样的。
$\alpha_{i j}^{\Phi}=\operatorname{softmax}_{j}\left(e_{i j}^{\Phi}\right)=\frac{\exp \left(\sigma\left(\mathbf{a}_{\Phi}^{\mathrm{T}} \cdot\left[\mathbf{h}_{i}^{\prime} \| \mathbf{h}_{j}^{\prime}\right]\right)\right)}{\sum_{k \in \mathcal{N}_{i}^{\Phi}} \exp \left(\sigma\left(\mathbf{a}_{\Phi}^{\mathrm{T}} \cdot\left[\mathbf{h}_{i}^{\prime} \| \mathbf{h}_{k}^{\prime}\right]\right)\right)}\tag{3}$
其中， $\mathcal{N}_i^{\Phi}$ 指节点 $i$ 上的邻居，包括节点自己本身。 $\alpha_{ij}^{\Phi}$ 指标准化后的权重系数。 $e_{i j}^{\Phi}$ 表示节点 $i$ 对节点 $j\in\mathcal{N}_i^{\Phi}$ 权重信息。 $\sigma$ 表示激活函数， $\|$ 表示concatenate操作， $\text{a}_{\Phi}$ 是针对meta-path $\Phi$ 节点层面的attention向量。 $(i, j)$ 的权重系数取决于它们的特征。权重系数是非对称的，不仅是因为拼接的顺序不一样还因为他们的邻居（分母）是不同的。

节点 $i$ 对meta-path $\Phi$ 的邻居节点特征进行汇总，如下公式：
$\mathbf{z}_{i}^{\Phi}=\sigma\left(\sum_{j \in \mathcal{N}_{i}^{\Phi}} \alpha_{i j}^{\Phi} \cdot \mathbf{h}_{j}^{\prime}\right)\tag{4}$
其中 $\text{z}_i^{\Phi}$ 是节点 $i$ 基于meta-path $\Phi$ 的节点向量。如下图所示：

在这里插入图片描述

每个node会汇总他们的邻居信息。因为注意力的权重 $\alpha_{ij}^{\Phi}$ 是基于单一meta-path产生的，能够捕捉一种特定的语义信息。

Since heterogeneous graph present the property of scale free, the variance of graph data is quite high.为保证训练的稳定性，采用多头机制，node-level attention重复K次，然后将它们拼接起来，作为一种特定语义向量：
$\mathrm{z}_{i}^{\Phi}=\|_{k=1}^{K} \sigma\left(\sum_{j \in \mathcal{N}_{i}^{\Phi}} \alpha_{i j}^{\Phi} \cdot \mathbf{h}_{j}^{\prime}\right)\tag{5}$
meta-path集合为 $\left\{\Phi_{1}, \ldots, \Phi_{P}\right\}$ , 结合节点的特征向量，生成P个 $\left\{\mathrm{Z}_{\Phi_{1}}, \ldots, \mathrm{Z}_{\Phi_{P}}\right\}$ 节点向量。

语义级别Attention

在异构网路中，每个节点都包含多重语义，采用Attentions机制自动学习不同meta-paths之间的重要性。将P组的node embedding作为输入，学习meta-path $\left(\beta_{\Phi_{1}}, \ldots, \beta_{\Phi_{P}}\right)$ 权重：
$\left(\beta_{\Phi_{1}}, \ldots, \beta_{\Phi_{P}}\right)=\operatorname{att}_{\operatorname{sem}}\left(\mathrm{Z}_{\Phi_{1}}, \ldots, \mathrm{Z}_{\Phi_{P}}\right)\tag{6}$
其中 $att_{sem}$ 指语义级别的attention。

我们将transformed embedding和a semantic-level attention vector q的相似性衡量特定语义级别embedding重要性，对不同语义的node embedding计算平均值。特定的语义重要性标记为 $w_{\Phi_i}$ :
$w_{\Phi_{p}}=\frac{1}{|\mathcal{V}|} \sum_{i \in \mathcal{V}} \mathrm{q}^{\mathrm{T}} \cdot \tanh \left(\mathbf{W} \cdot \mathbf{z}_{i}^{\Phi_{p}}+\mathbf{b}\right)\tag{7}$
其中， $W$ 是权重矩阵， $\text{b}$ 是偏置项， q是the semanticlevel attention vector。不同meta-paths之间的参数是共享的。获取每个meta-path之后，对其进行softmax操作。meta-path $\Phi_i$ 的权重表示为 $\beta_{\Phi_i}$ ，可以获取标准化后的重要性：
$\beta_{\Phi_{p}}=\frac{\exp \left(w_{\Phi_{p}}\right)}{\sum_{p=1}^{P} \exp \left(w_{\Phi_{p}}\right)}\tag{8}$
它可以解释为每个meta-path $\Phi_p$ 的贡献度。 $\beta_{\Phi_p}$ 的值越大，meta-path $\Phi_p$ 的重要性越高。对于不同的任务meta-path $\Phi_p$ 会有不同的权重。将不同权重的语义embedding进行融合，得到最后的embedding $Z$ :
$\mathbf{Z}=\sum_{p=1}^{P} \beta_{\Phi_{p}} \cdot \mathbf{Z}_{\Phi_{p}}\tag{9}$
为了更好的理解语义汇总过程，我们在Figure 3(b）给出简单的解释。将所有的语义embedding进行汇总，得到最后的embedding。针对最终embedding的应用，我们可以跟不同任务设计不同的损失函数。例如，针对半监督的节点分类任务，我们最小化交叉熵损失函数：
$L=-\sum_{l \in \mathcal{Y}_{L}} \mathrm{Y}^{l} \ln \left(\mathrm{C} \cdot \mathrm{Z}^{l}\right)\tag{10}$
其中，其中 $C$ 是分类器的参数， $\mathcal{Y}_L$ 是有标签节点的索引集合， $Y^l$ 和 $Z^l$ 是标签和有标签的node的embedding。采用反向传播学习模型的参数。