大规模图训练调优指南

最新推荐文章于 2022-04-21 00:32:00 发布

PaperWeekly

最新推荐文章于 2022-04-21 00:32:00 发布

阅读量652

点赞数 1

文章标签：人工智能深度学习 java 机器学习 python

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/109323789

版权

本文介绍了在训练大规模图神经网络时的优化技巧，包括采样策略、缩小图规模、减少内存和显存占用以及加快训练速度的方法。建议使用DGL和PyTorch框架，通过子图采样、调整数据结构、优化存储、使用SparseAdam等手段，以及并行处理和多GPU训练来提高效率。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜桑运鑫

学校｜上海交通大学硕士生

研究方向｜图神经网络应用

最近对一个大规模的图训练嵌入，发现相关的中文资料还是很欠缺的，把自己踩的一些坑记下来。本文主要针对 DGL [1] 和 PyTorch [2] 两个框架。

训练大规模图

对于大规模图不能像小图一样把整张图扔进去训练，需要对大图进行采样，即通过Neighborhood Sampling方法每次采样一部分输出节点，然后把更新它们所需的所有节点作为输入节点，通过这样的方式做 mini-batch 迭代训练。具体的用法可以参考官方文档中的 Chapter 6: Stochastic Training on Large Graphs [3]。

但是 GATNE-T [4] 中有一种更有趣的做法，即只把 DGL 作为一个辅助计算流的工具，提供Neighborhood Sampling和Message Passing等过程，把Node Embedding和Edge Embedding等存储在图之外，做一个单独的Embedding矩阵。每次从 dgl 中获取节点的id之后再去Embedding矩阵中去取对应的 embedding 进行优化，以此可以更方便的做一些优化。