GAT论文理解

最新推荐文章于 2024-06-09 13:28:05 发布

Rising_Flashlight

最新推荐文章于 2024-06-09 13:28:05 发布

阅读量1.2k

点赞数

文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/Rising_shit/article/details/118110516

版权

本文详细介绍了Graph Attention Networks (GAT)的工作原理，包括全连接层、注意力机制的计算、邻居信息的聚合以及多头注意力机制。GAT通过注意力机制解决了传统GCN在Inductive问题上的不足，其模型结构直观且结果有效。作者还探讨了模型可能的改进方向，如考虑更高阶邻居和邻居间的关系。

摘要由CSDN通过智能技术生成

GAT论文理解

文章目录

GAT论文理解

零、背景

传统的GCN难以解决Inductive的问题，也就是说如果有新点，则需要通过重构的方式来进行。
而且呢，基于谱的方法比较晦涩难懂，但是作者提出的基于Attention的GNN则写得非常的直观易懂，且做法也简单，有一种我上我也行的感觉，主要是结果还很好[1]。
本篇文章的前两页也很细致的回顾了图卷积的背景与经典方法，如基于谱的经典方法和不基于谱的经典方法，感觉作为一篇简单的综述都是很好的
作者我有一次看到好像是被称为机器学习领域的三个最大牛之一的人物，所以大牛果然是大牛。

一、模型结构

对于图的表示学习来说，主要目的就是每个点输入的时候有一个表征 $h_i$ ，其维度为 $d$ 。通过一个GNN，之后要学到一个维度为 $d^{'}$ 的新的表征 $h'_i$ ，通过这个 $h_i'$ 去进行下游的一些任务如聚类等。

1.1 全连接层

传统的做法首先是将 $h_i$ 通过一个参数共享的全连接层 $W$ ，其中 $W$ 是 $\times d$ 维的即
$h'_i = Wh_i$

1.2 attention的计算

在图上的话，只通过全连接显然是不够的，要聚合当前点和其他点的关系带来的信息，但是每个点对当前点影响又不一致，因此就要用attention进行计算了，作者先通过attention计算了一个权重 $e_{ij}$ 代表点 $i$ 和点 $j$ 的关系，在本文中作者只考虑了对于点 $i$ 的一阶邻居对 $i$ 的影响。
$e_{ij} = a (Wh_i,Wh_j)\\其中，a (Wh_i,Wh_j) = LeakyReLU(\vec{a}[Wh_i\|Wh_j])$
$[a\|b]$ 是将 $a$ 和 $b$ 拼在一起的意思，因此 $\vec a$ 就是一个维度为 $2 d^{'}$ 的向量，得到第 $i$ 个点和第 $j$ 个点聚合的结果，使用 $L e a k y R e L U$ 是负数位置也有梯度的 $R e L U$ ，使用这个激活函数我觉得可能是有一些点会起到负数的效果。

接着再用 $s o f t m a x$ 使相邻点的权重归一化，即
$\alpha _{ij}= \frac{exp(e_{ij})}{\sum_{k\in N_i}exp(e_{ik})}\\即\alpha _{ij} = \frac {exp(LeakyReLU(\vec{a}[Wh_i\|Wh_j]))}{\sum_{k\in N_i }exp(LeakyReLU(\vec{a}[Wh_i\|Wh_k]))}$
其中 $N_i$ 表示 $i$ 的一阶邻居。

1.3 邻居信息的聚合

有了这个权重，聚合起来就比较方便，就有
$h'_i = \sigma(\sum_{j\in N_i}\alpha_{ij}Wh_i)$
即加权聚合到一起

1.4 多头注意力机制

然而呢，注意力机制只做一次效果可能不好，做上K次可能就好了，因此作者又增加了一个多头注意力机制，用两种方式进行聚合，一种是直接拼接，得到一个 $K d^{'}$ 维的向量，即
$h'_i = \|_{k=1}^K \sigma(\sum_{j\in N_i}\alpha_{ij}^kW^kh_i)$
另一种是进行平均，得到 $d^{'}$ 维的向量

即
$h'_i = \sigma(\frac 1 K \sum_{k=1} ^ K\sum_{j\in N_i}\alpha_{ij}^kW^kh_i)$

二、一点想法

作者只聚合了一阶邻居，不知道有没有办法可以拓展到更高阶。
作者只考虑了 $i$ 和相邻点的关系，没考虑邻居之间互相的关系，有两个类似的邻居的话，没准会减弱每个的关系，不过我觉得这个学习的时候也能学到。

三、引用

[1] Velikovi P , Cucurull G , Casanova A , et al. Graph Attention Networks[J]. 2017.

Rising_Flashlight

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
GAT论文理解

GAT论文理解文章目录GAT论文理解零、背景一、模型结构1.1 全连接层1.2 attention的计算1.3 邻居信息的聚合1.4 多头注意力机制二、一点想法三、引用零、背景传统的GCN难以解决Inductive的问题，也就是说如果有新点，则需要通过重构的方式来进行。而且呢，基于谱的方法比较晦涩难懂，但是作者提出的基于Attention的GNN则写得非常的直观易懂，且做法也简单，有一种我上我也行的感觉，主要是结果还很好[1]。本篇文章的前两页也很细致的回顾了图卷积的背景与经典方法，如基于谱的经
复制链接

扫一扫