[解读] Graph Attention Networks

最新推荐文章于 2024-05-11 10:26:18 发布

原创最新推荐文章于 2024-05-11 10:26:18 发布 · 624 阅读

3 ·

CC 4.0 BY-SA版权

机器学习同时被 2 个专栏收录

24 篇文章

订阅专栏

深度学习

24 篇文章

订阅专栏

本文介绍了一种用于图结构数据节点分类的图注意力网络(GAT)，该模型通过引入可学习的注意力机制，解决了传统图卷积网络的局限性，提高了模型的表达能力和可解释性。

本文提出一种图注意力网络 (GAT), 可用于图结构数据的节点分类任务, 解决了先前基于图卷积模型的缺点. 注意力机制能够给每个邻节点不同的可学习的权重, 增强了网络的表达能力, 避免了大规模的矩阵运算.

链接: https://arxiv.org/abs/1710.10903v3

开源代码: https://github.com/Diego999/pyGAT

本文的方法

首先定义一个节点的特征为
$\mathbf{h}=\left\{\vec{h}_{1}, \vec{h}_{2}, \ldots, \vec{h}_{N}\right\}, \vec{h}_{i} \in \mathbb{R}^{F}.$
其中 $N$ 为节点数目, $F$ 代表每一个节点特征向量的维数. 当前层最终输出的特征记为 $\mathbf{h}^{\prime}=\left\{\vec{h}_{1}^{\prime}, \vec{h}_{2}^{\prime}, \ldots, \vec{h}_{N}^{\prime}\right\}, \vec{h}_{i}^{\prime} \in \mathbb{R}^{F^{\prime}}$ .

为了获得更强的表达能力, 有必要引入一个可学习的线性变换 $\mathbf{W} \in \mathbb{R}^{F^{\prime}} \times F$ , 这个变换在当前层所有节点之间是共享的. 然后再对变换后的节点特征应用注意力机制 $\mathbb{R}^{F^{\prime}} \times \mathbb{R}^{F^{\prime}} \rightarrow \mathbb{R}$ 来计算节点之间的注意力系数, 即
$e_{i j}=a\left(\mathbf{W} \vec{h}_{i}, \mathbf{W} \vec{h}_{j}\right),$
注意, 对每个节点 $i$ , 我们只计算它与相邻节点的注意力系数. 为了使得注意力系数更有对比性, 有必要对其进行归一化:
$\alpha_{i j}=\operatorname{softmax}_{j}\left(e_{i j}\right)=\frac{\exp \left(e_{i j}\right)}{\sum_{k \in \mathcal{N}_{i}} \exp \left(e_{i k}\right)}.$
注意力系数通过一个单层的前馈神经网络来获得, 即网络的权重为一个向量 $\overrightarrow{\mathbf{a}} \in \mathbb{R}^{2 F^{\prime}}$ . 详细的表达如下:
$\alpha_{i j}=\frac{\exp \left(\operatorname{LeakyReLU}\left(\overrightarrow{\mathbf{a}}^{T}\left[\mathbf{W} \vec{h}_{i} \| \mathbf{W} \vec{h}_{j}\right]\right)\right)}{\sum_{k \in \mathcal{N}_{i}} \exp \left(\operatorname{LeakyReLU}\left(\overrightarrow{\mathbf{a}}^{T}\left[\mathbf{W} \vec{h}_{i} \| \mathbf{W} \vec{h}_{k}\right]\right)\right)},$
其中 $\|$ 是连接操作 (concatenation operation).

计算得到注意力系数之后, 便可以按照系数对邻居节点按系数做加权求和:
$\vec{h}_{i}^{\prime}=\sigma\left(\sum_{j \in \mathcal{N}_{i}} \alpha_{i j} \mathbf{W} \vec{h}_{j}\right).$
与 Vaswani et al. (2017) 等人的工作相似, 为了使得自注意力机制在训练上更加稳定, 引入多头自注意力机制, 假设有 $K$ 个头, 对每个头都有一个权重矩阵 $\mathbf{W}^k$ , 将每个头的聚合结果连接起来, 即
$\vec{h}_{i}^{\prime}=\prod_{k=1}^{K} \sigma\left(\sum_{j \in \mathcal{N}_{i}} \alpha_{i j}^{k} \mathbf{W}^{k} \vec{h}_{j}\right).$
最后得到的特征 $\mathbf{h}^{\prime}$ 的维度为 $KF^{\prime}$ . 特别指出的是, 对于最后的输出层, 我们需要进行分类, 则输出向量的维数应等于类别数, 那么多头产生的特征不是连接起来, 而是求平均值
$\vec{h}_{i}^{\prime}=\sigma\left(\frac{1}{K} \sum_{k=1}^{K} \sum_{j \in \mathcal{N}_{i}} \alpha_{i j}^{k} \mathbf{W}^{k} \vec{h}_{j}\right).$

参考

Yan Duan, Marcin Andrychowicz, Bradly Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, and Wojciech Zaremba. One-shot imitation learning. arXiv preprint arXiv:1703.07326, 2017.
Misha Denil, Sergio G´omez Colmenarejo, Serkan Cabi, David Saxton, and Nando de Freitas. Programmable agents. arXiv preprint arXiv:1706.06383, 2017.
Aravind Subramanian, Pablo Tamayo, Vamsi K Mootha, Sayan Mukherjee, Benjamin L Ebert, Michael A Gillette, Amanda Paulovich, Scott L Pomeroy, Todd R Golub, Eric S Lander, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences, 102(43):15545–15550, 2005.
Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. International Conference on Learning Representations (ICLR), 2017.