Graph Attention Network (GAT) 图注意力模型

酒酿小圆子～

已于 2024-05-22 20:35:19 修改

阅读量1.5w

点赞数 15

分类专栏：机器学习 & 深度学习文章标签：深度学习机器学习人工智能

于 2020-07-07 14:24:53 首次发布

本文链接：https://blog.csdn.net/u012856866/article/details/107180712

版权

机器学习 & 深度学习专栏收录该内容

93 篇文章

订阅专栏

文章目录

1. GAT基本原理
2. GAT实现代码
3. GAT和GCN优缺点对比
- 3.1 GCN缺点
- 3.2 GAT优点

GCN结合邻近节点特征的方式和图的结构依依相关，这也给GCN带来了几个问题：

无法完成inductive任务，即处理动态图问题。inductive任务是指：训练阶段与测试阶段需要处理的graph不同。通常是训练阶段只是在子图（subgraph）上进行，测试阶段需要处理未知的顶点。（unseen node）
处理有向图的瓶颈，不容易实现分配不同的学习权重给不同的neighbor。

于是，Bengio等人在ICLR 2018上提出了图注意力（GAT）模型，论文详见：Graph Attention Networks

1. GAT基本原理

在这里插入图片描述

结合上图，GAT的核心思想就是针对节点 $i$ 和节点 $j$ ， GAT首先学习了他们之间的注意力权重 $a_{i,j}$ （如左图所示）；然后，基于注意力权重 ${a_1, ... , a_6\}$ 来对节点 ${1, 2, ... ,6\}$ 的表示 ${h_1, ... , h_6\}$ 加权平均，进而得到节点1的表示 ${h}'_1$ 。

和所有的attention mechanism一样，GAT的计算也分为两步走：

1.1 计算注意力系数（attention coefficient）

对于顶点 $i$ ，逐个计算它的邻居们和它自己之间的相似系数
在这里插入图片描述
解读一下这个公式：

首先一个共享参数 $W$ 的线性映射对于顶点的特征进行了增维，当然这是一种常见的特征增强（feature augment）方法；
$∣∣$ 对于顶点 $i, j$ 的变换后的特征进行了拼接（concatenate）；
最后 $a ()$ 把拼接后的高维特征映射到一个实数上。这里，作者是通过 single-layer feedforward neural network实现的。

显然学习顶点 $i, j$ 之间的相关性，就是通过可学习的参数 $W$ 和映射 $a ()$ 完成的。

有了相关系数，离注意力系数就差归一化了！其实就是用个softmax
在这里插入图片描述

1.2 特征加权求和（aggregate）

第二步很简单，根据计算好的注意力系数，把特征加权求和（aggregate）一下。
在这里插入图片描述
${h}'_i$ 就是GAT输出的对于每个顶点 $i$ 的新特征（融合了邻域信息）。

1.3 multi-head attention

在这里插入图片描述
multi-head attention也可以理解成用了ensemble的方法。

1.4 Mask graph attention / global graph attention

还有一件事件需要提前说清楚：GAT本质上可以有两种运算方式的，这也是原文中作者提到的

Global graph attention
顾名思义，就是每一个顶点 $i$ 都对于图上任意顶点都进行attention运算。
- 优点：完全不依赖于图的结构，对于inductive任务无压力
- 缺点：（1）丢掉了图结构的这个特征，无异于自废武功，效果可能会很差（2）运算面临着高昂的成本
Mask graph attention
注意力机制的运算只在邻居顶点上进行。

作者在原文中GAT ARCHITECTURE这一节中写道"We inject the graph structure into the mechanism by performing masked attention—we only compute eij for nodes j ∈Ni, whereNi is some neighborhood of node i in the graph. "

显然作者在文中采用的是masked attention，DGL里实现的也是如此，以下的解读均基于这种方式。

【推荐阅读】关于GAT的解读，推荐下面几篇文章：

2. GAT实现代码

GAT实现代码Github地址：Pytorch | Tensorflow | Keras

PyTorch版代码解析:

Tensorflow版代码解析：

3. GAT和GCN优缺点对比

本质上而言：GCN与GAT都是将邻居顶点的特征聚合到中心顶点上（一种aggregate运算），利用graph上的local stationary学习新的顶点特征表达。

不同的是：

GCN利用了拉普拉斯矩阵
GAT利用attention系数

一定程度上而言，GAT会更强，因为顶点特征之间的相关性被更好地融入到模型中。

3.1 GCN缺点

GCN模型对于同阶的邻域上分配给不同的邻居的权重是完全相同的（也就是GAT论文里说的：无法允许为邻居中的不同节点指定不同的权重）。这一点限制了模型对于空间信息的相关性的捕捉能力，这也是在很多任务上不如GAT的根本原因。
GCN结合临近节点特征的方式和图的结构依依相关，这局限了训练所得模型在其他图结构上的泛化能力。

Graph Attention Network(GAT)提出了用注意力机制对邻近节点特征加权求和。邻近节点特征的权重完全取决于节点特征，独立于图结构。GAT和GCN的核心区别在于如何收集并累和距离为1的邻居节点的特征表示。图注意力模型GAT用注意力机制替代了GCN中固定的标准化操作。本质上，GAT只是将原本GCN的标准化函数替换为使用注意力权重的邻居节点特征聚合函数。

3.2 GAT优点

在GAT中，图中的每个节点可以根据邻节点的特征，为其分配不同的权值。
GAT的另一个优点在于，引入注意力机制之后，只与相邻节点有关，即共享边的节点有关，无需得到整张图的信息。
- (1)该图不需要是无向的(如果边缘 j->i 不存在，我们可以简单地省略计算 $a_{ij}$ ；
- (2)它使我们的技术直接适用于Inductive Learning——包括在训练期间完全看不见的图形上的评估模型的任务。
GAT适用于有向图。原因在于GAT的运算方式是逐顶点的运算（node-wise）。每一次运算都需要循环遍历图上的所有顶点来完成。逐顶点运算意味着，摆脱了拉普利矩阵的束缚，使得有向图问题迎刃而解。