基于高效采样算法的时序图神经网络系统

m0_70960708

于 2024-08-07 06:56:46 发布

阅读量224

点赞数 9

分类专栏：笔记文章标签：算法神经网络人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70960708/article/details/140971049

版权

笔记专栏收录该内容

124 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

现有的图数据规模极大，导致时序图神经网络的训练需要格外长的时间，因此使用多GPU进行训练变得成为尤为重要，如何有效地将多GPU用于时序图神经网络训练成为一个非常重要的研究议题。本文提供了两种方式来提高多GPU训练的性能，包括局部性感知的数据划分策略以及高效的任务调度策略。

首先，本文使用高效的数据划分策略将图数据以及点的特征向量进行有效的划分，来降低GPU之间额外的通信开销。点的特征向量占据很大的存储空间，因此我们将点的特征向量按照三个维度进行划分并且存储在不同的GPU中。

如图1所示，首先我们按照时序图的时间维度进行切分。在不同的时间范围中，将该时间范围内的点数据按照源点和汇点进行二维划分，其中每个GPU存储一段区间内源点的特征向量。对于边数据的存储，我们将边数据直接存储在CPU memory中。在进行训练时再将对应的边数据加载进相应的GPU中。

图1. 局部性感知的数据划分策略
由于不同的数据存储在不同GPU中，如何进行高效的任务调度来降低通信开销将成为一个至关重要的问题。为解决该问题，我们提出了一种高效的任务调度策略：

首先我们的任务调度将存储在不同GPU上的数据进行调度，从而充分利用GPU之间NVLink高速通信的优势。

在进行训练时，由于每个GPU存储一段区间内的点特征向量，每个GPU需要传输当前边数据对应的汇点的特征向量。在8块V100GPU中，部分GPU之间存在两条NVLink高速链路，我们将充分利用这些NVLink链路来传输点的特征向量，从而提升传输效率。

以8块GPU为例，我们一共进行4轮的点数据交互。

了解本专栏

超级会员免费看

关注

9
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于高效采样算法的时序图神经网络系统

具体来说，我们将GPU的显存划分为三部分：第一部分存储固定的数据（神经网络参数以及源点的特征向量），第二部分存储当前神经网络训练所需的数据（包括边数据和汇点的特征向量），第三部分用来进行数据传输及存储下一次训练所需的数据。现有的图数据规模极大，导致时序图神经网络的训练需要格外长的时间，因此使用多GPU进行训练变得成为尤为重要，如何有效地将多GPU用于时序图神经网络训练成为一个非常重要的研究议题。首先，本文使用高效的数据划分策略将图数据以及点的特征向量进行有效的划分，来降低GPU之间额外的通信开销。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。