DeepLearning | 图注意力网络Graph Attention Network（GAT）论文、模型、代码解析

最新推荐文章于 2024-05-05 00:35:48 发布

Liangjun_Feng

最新推荐文章于 2024-05-05 00:35:48 发布

阅读量7.1k

点赞数 18

分类专栏： Deep Learning | 卷积网络及编程框架文章标签：图注意力网络 GAT attention机制图神经网络深度学习

本文为博主原创文章，转载请注明出处

本文链接：https://blog.csdn.net/Liangjun_Feng/article/details/105417981

版权

Deep Learning | 卷积网络及编程框架专栏收录该内容

10 篇文章

订阅专栏

本篇博客是对论文 Velikovi, Petar, Cucurull, Guillem, Casanova, Arantxa,et al. Graph Attention Networks, 2018, ICLR的解读与python复现，全文阅读约10分钟。

博主关于图神经网络的文章
DeepLearning | 图卷积神经网络(GCN)解析(论文、算法、代码)
DeepLearning | 图注意力网络Graph Attention Network（GAT）论文、模型、代码解析
 DeepLearning | 图卷积网络基于拓扑结构的分类（T-GCN)

关于半监督学习
基于分歧的半监督学习方法
机器学习教程之半监督学习 Tri-training方法 (论文、数据集、代码)
机器学习教程之半监督学习 Co-training 协同训练 (论文、算法、数据集、代码)
机器学习教程之半监督学习 Coreg 协同回归算法 (论文、算法、数据集、代码)
机器学习教程之半监督学习基于图正则项的半监督极限学习机

这些博客都提供了算法的讲解和python的代码复现，感兴趣的可以了解一下

一、Graph Attention Network

1.1 GAT的优点

图注意力网络(GAT)是作者对图卷积网络(GCN)的改进。它的主要创新点在于利用了注意力机制(Attention Mechanism)来自动的学习和优化节点间的连接关系，这一作法有以下几个优点：

克服了GCN只适用于直推式学习的缺陷(在训练期间需要测试时的图数据)，可以应用于我们熟悉的归纳式学习任务(在训练期间不需要测试时的图数据)。
使用注意力权重代替了原先非0即1的节点连接关系，即两个节点间的关系可以被优化为连续数值，从而获得更丰富的表达
由于attention值的计算是可以在节点间并行进行的，网络的计算相当高效

1.2 Graph Attention layer的输入输出

作为一层网络，图注意力层的输入为

h=\{h_{1},...,h_{N}\}, h_{i} \in \mathbb{R}^{F}

这里的

N

是图的节点个数，

h_{i}

表示节点的特征向量，

F

表示特征维度。
图注意力层的输出为

{h}'=\{{h}'_{1},...,{h}'_{N}\}, {h}'_{i} \in \mathbb{R}^{{F}'}

同样的，

{F}'

表示输出的特征维度。
从图注意力层的输入输出可以看出，其本质上也是对特征的一种变换，和其余的网络层功能是类似的。

1.3 Graph Attention layer的attention机制

首先需要定义一个特征变换矩阵 $\in \mathbb{R}^{F \times {F}'}$ 用于每一个节点从输入到输出的变换。

GAT中的attention机制被称为self-attention，记为 $f$ ，其功能如下：
$e_{ij}=f(Wh_{i},Wh_{j})$
如图所示，该式表示了self-attention利用节点 $i$ 和节点 $j$ 的特征作为输入计算出了 $e_{ij}$ , 而 $e_{ij}$ 则表示了节点 $j$ 对于节点 $i$ 的重要性。
需要说明的是，这里的节点 $j$ 是节点 $i$ 的近邻，而节点 $i$ 可能是拥有多个近邻的，因此就有了下面的 $s o f t m a x$ 归一化操
$a_{ij}=softmax(e_{ij})=\frac{exp(e_{ij})}{\sum_{k \in \chi_{i} }exp(e_{ik})}$ $\chi_{i}$ 是节点 $i$ 的近邻集合。
那么说了这么久，这个self-attention机制，也就是我们一开始提到的 $a(Wh_{i},Wh_{j})$ 是怎么计算的呢？其实也很简单
$f(Wh_{i},Wh_{j}) = LeakyReLU(a[Wh_{i} || Wh_{j}])$
这里的 $\in \mathbb{R}^{2{F}'}$ 表示需要训练的网络参数, $∣ ∣$ 表示的是矩阵拼接操作， $L e a r k y R e L u$ 则是一种激活函数，是 $R e L u$ 的一种改进。
最后给出图感知层的定义，即
${h}'_{i}=\sigma(\sum_{j \in \chi_{i}}a_{ij}Wh_{j})$

上面就是GAT的attention计算方法了，其中会有两个知识点会影响理解

self-attention机制为什么可以表示节点间的重要性
$L e a r k y R e L u$ 的定义

对于上面这两点，如果知道的话，再结合对GCN的理解，可以很容易的get到GAT的点和含义，如果不清楚的话可能会有点迷糊。

attention机制实际上是在有监督的训练下计算两个向量的匹配程度，从而揭示其重要性和影响，由于本篇博客不是专门介绍attention的，这里不做多余的解释，日后会补上相应的博客。
$L e a r k y R e L u$ 的定义如下： $y=\left\{\begin{matrix} x & if x >=0 \\ ax & else \end{matrix}\right.$ 即引入了一个系数 $a$ 来取消 $R e L U$ 的死区。

1.4 多头attention机制

为了稳定self−attention的学习过程，GAT还采用了一种多头机制，即独立的计算K个attention，然后将其获得的特征拼接起来，获得一个更全面的表述，表示如下 ${h}'_{i}=||^{K}_{k=1} \sigma(\sum_{j \in \chi_{i}}a^{k}_{ij}W^{k}h_{j})$ 这里的 || 表示矩阵拼接的操作，其余的符号和上面描述的一致。
同时，考虑到在网络的最后一层输出层如果还采用这种拼接的方式扩大特征维度，可能不合理，因此，GAT又为输出层定义了平均的操作 ${h}'_{i}= \sigma(\frac{1}{K}\sum^{K}_{k=1}\sum_{j \in \chi_{i}}a^{k}_{ij}W^{k}h_{j})$

多头attention机制如图所示
在这里插入图片描述

二、GAN的python复现

模型的核心代码如下

import numpy as np
import tensorflow as tf

from utils import layers
from models.base_gattn import BaseGAttN

class GAT(BaseGAttN):
    def inference(inputs, nb_classes, nb_nodes, training, attn_drop, ffd_drop,
            bias_mat, hid_units, n_heads, activation=tf.nn.elu, residual=False):
        attns = []
        for _ in range(n_heads[0]):
            attns.append(layers.attn_head(inputs, bias_mat=bias_mat,
                out_sz=hid_units[0], activation=activation,
                in_drop=ffd_drop, coef_drop=attn_drop, residual=False))
        h_1 = tf.concat(attns, axis=-1)
        for i in range(1, len(hid_units)):
            h_old = h_1
            attns = []
            for _ in range(n_heads[i]):
                attns.append(layers.attn_head(h_1, bias_mat=bias_mat,
                    out_sz=hid_units[i], activation=activation,
                    in_drop=ffd_drop, coef_drop=attn_drop, residual=residual))
            h_1 = tf.concat(attns, axis=-1)
        out = []
        for i in range(n_heads[-1]):
            out.append(layers.attn_head(h_1, bias_mat=bias_mat,
                out_sz=nb_classes, activation=lambda x: x,
                in_drop=ffd_drop, coef_drop=attn_drop, residual=False))
        logits = tf.add_n(out) / n_heads[-1]
    
        return logits