GAT网络为什么占用那么多的显存

最新推荐文章于 2025-05-02 23:00:47 发布

无穷升高的卡农

最新推荐文章于 2025-05-02 23:00:47 发布

阅读量2.2k

点赞数 6

分类专栏：深度学习文章标签：深度学习人工智能 GNN GAT

本文链接：https://blog.csdn.net/weixin_40802676/article/details/127562780

版权

深度学习专栏收录该内容

3 篇文章

订阅专栏

GAT网络显存占用原因分析（非专业，纯个人理解）

1：GAT的注意力机制
2：为什么transformer就可以有很长的输入

本blog主要聚焦以下几点：

GAT为什么占用那么多的显存，尤其是在节点多的时候
Transformer为什么就可以处理很长的输入，GAT就不行？

⚠⚠：并非图相关的方向，仅是打工时用到了，简单了解了一下。

1：GAT的注意力机制

GAT占用显存多的原因一句话概括就是：注意力机制

首先来看GAT的注意力机制是什么样的：
在这里插入图片描述

图片先随便放一张，之后再改：来源（https://zhuanlan.zhihu.com/p/137592078）

也就是，每一个节点可以用一个向量 $h_i$ 表示，那么在计算attention score的时候，就是 $Wh_i$ 向量与 $Wh_j$ 向量拼接之后（ $W$ 是去可学习的权重），再乘一个可学习权重 $a$ 。，之后再求softmax，并且使用了mask，让每个节点只使用和他直接相连的节点进行计算。

其实很容易理解，就是先把每一个节点的向量过一个mlp，之后使用每个节点得到的新向量，计算每两个节点之间的加权求和。这就是主要的费显存的地方。为什么呢？请看这部分的代码是如何实现的：

GAT的代码我直接在网上找的一个，改成了batch版本，代码来源：https://zhuanlan.zhihu.com/p/128072201

    def forward(self, inp, adj):
        """
        inp: input_fea [B, N, in_features]  in_features表示节点的输入特征向量元素个数
        adj: 图的邻接矩阵 维度[B, N, N] 非零即一，数据结构基本知识
        """

        h = torch.matmul(inp, self.W)  # [B, N, out_features]
        # print(h.size())
        print('1: ', torch.cuda.memory_allocated())
        N = h.size()[1]  # N 图的节点数
        # 最占显存的就是这下面一行
        # 单独一个a_input就会占用276.39兆的显存，而实际上这一个计算之后立马就会新增0.81G的显存占用
        a_input = torch.cat([h.repeat(1, 1, N).view(-1, N * N, self.out_features),
                             h.repeat(1, N, 1)], dim=1).view(-1, N, N, 2 * self.out_features)
        print('2: ', torch.cuda.memory_allocated())

其中，在计算 $a_input$ 的时候计算的就是 $Wh_i, Wh_j)$ ，为了便于快速计算出 $N$ 个节点中两两之间的attention score，要么就两层循环嵌套，一共循环 $N^2$ 次，要么直接将矩阵 $Wh_i$ 和 $Wh_j$ 在不同的维度上重复 $N$ 次，然后拼接。repeat的效果大概是下面这样：
在这里插入图片描述
同一个颜色代表同一个向量，左边是把每一个重复 $N$ 次，右边是把整体重复 $N$ 次。拼接起来之后，刚刚好每一行就是一个向量 $h_i$ 和另一个向量 $h_j$ ，之后在乘一个矩阵 $a$ ，直接就计算出了两个向量之间的加权求和值。

而恰恰就是这个向量导致整体的显存占用暴涨。我的场景是有一个500+节点的图，每一个图的特征是6，我设置的 $out\_features$ 数目是128。所以我上面repeat之前的矩阵大小是 $[B, 500, 128]$ ，重复之后变成了 $[B, 500, 500, 256]$ ，此时我把B设为4。那么一共有 $4 * 500 * 500 * 256 = 256000000$ 个数字，而一个单精度的foat32的数占用四个字节，因此该tensor占用 $256000000/256/1024/1024 = 0.95 GB$ ，而我们还会设置多头注意力，不过没经过一个头，算完之后，这个显存会被回收，所以八个头其实占用和一个头差不太多。