深入理解图注意力机制（Graph Attention Network）

本文链接：https://blog.csdn.net/u013602059/article/details/107384196

本文深入探讨了图注意力网络（GAT）的工作原理，包括非对称注意力权重的学习、LeakyReLU的重要性，以及与Transformer的对比。GAT通过学习节点间的注意力权重，实现对图数据的加权聚合，从而在处理图数据时能更好地处理噪声节点，并提供一定的可解释性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考来源：https://mp.weixin.qq.com/s/Ry8R6FmiAGSq5RBC7UqcAQ

1、介绍

图神经网络已经成为深度学习领域最炽手可热的方向之一。作为一种代表性的图卷积网络，Graph Attention Network (GAT) 引入了注意力机制来实现更好的邻居聚合。通过学习邻居的权重，GAT 可以实现对邻居的加权聚合。因此，GAT 不仅对于噪音邻居较为鲁棒，注意力机制也赋予了模型一定的可解释性。

下图概述了 Graph Attention Network 主要做的事情。
在这里插入图片描述
针对节点 $i$ 和节点 $j$ ， GAT 首先学习了他们之间的注意力权重 $\alpha_{ij}$ （如左图所示）；然后，基于注意力权重 $\{\alpha_{11},\cdots,\alpha_{16}\}$ 来对节点 $\{1,2,\cdots,6\}$ 的表示 $\{h_1,\cdots,h_6\}$ 加权平均，进而得到节点1 的表示 $h'_1$ 。

2、深入理解图注意力机制

2.1、非对称的注意力权重

首先，介绍下如何学习节点对 $(i, j)$ 之间的注意力值 $e_{ij}$ 。很明显，为了计算 $e_{ij}$ ，注意力网络 $a$ 需要同时考虑两个节点的影响，如下式： $e_{ij}=a\left(W\vec{h}_i,W\vec{h}_j\right)$

其中， $\vec{h}_i,\vec{h}_j$ 分别是节点 $i$ 和 $j$ 的表示， $W$ 是一个投影矩阵。

注意力网络可以有很多的设计方式，这里作者将节点 $i$ 和 $j$ 的表示进行了拼接，再映射为一个标量。需要注意，这里拼接导致 $e_{ij}\neq e_{ji}$ ，也就是说注意力值 $e_{ij}$ 是非对称的。 $e_{ij}=LeakyReLU\left(\vec{a}^T\left[W\vec{h}_i||W\vec{h}_j\right]\right)$

除了拼接操作以外，聚合邻居信息时，需要对每个节点的所有邻居的注意力进行归一化。归一化之后的注意力权重 $\alpha_{ij}$ 才是真正的聚合系数。 $\alpha_{ij}=softmax(e_{ij})=\frac{exp(e_{ij})}{\sum_{k\in\mathcal{N}_i}exp(e_{ik})}$