AutoDL教程:分布式gnn训练及数据集整理
文章目录
-
【分布式GNN/深度学习】常用的图数据集(图结构)及分布式训练教程
-
1. Project基本信息介绍
-
2. 图数据集
-
2.1 Cora
-
2.2 Citeseer
-
2.3 Pubmed
-
2.4 DBLP
-
2.5 ACM
-
2.6 AMAP & AMAC
-
2.7 WIKI
-
2.8 COCS
-
2.9 BAT
-
2.10 EAT
-
2.11 UAT
-
2.12 Corafull
-
-
3. 如何进行分布式训练
-
3.1 如何读取文件
-
3.2 训练步骤
-
-
4. 下载链接
-
5. 参考
-
1.Project基本信息介绍
项目开源代码地址:https://github.com/IntelLabs/SAR/tree/main
参考论文: https://arxiv.org/pdf/2111.06483.pdf
论文【SEQUENTIAL AGGREGATION AND REMATERIALIZATION: DISTRIBUTED FULL-BATCH TRAINING OF GRAPH NEURAL NETWORKS ON LARGE GRAPHS】
SAR(Sequential Aggregation and Rematerialization)是一种分布式的全批次训练大规模GNN(Graph Neural Network)的方法。与其他大规模训练GNN的方法相比,SAR有以下优势:
1. 可以直接在整个大图上训练任何类型的GNN,而不是基于采样的方法或基于不可学习消息传递的方法。
2. SAR采用分步恢复计算图的方法,构造并释放GNN计算图的部分,从而在反向传播期间获得卓越的内存伸缩行为。这意味着在密集连接的图上,每个工作机器的内存消耗会随着工作机器数量的增加而线性下降。
3. SAR优化了关注力模型的运行时和内存效率,这是一种基于内核融合和关注力矩阵恢复的通用技术。通过SAR结合关注力内核的优化,可以大大加快并节省注意力型GNN的内存。
2. 图数据集
下面我们介绍一下深度学习中常用的图数据集:Cora、Citeseer(Cite)、Pubmed、DBLP、ACM、AMAP、AMAC、Corafull、WIKI、COCS、BAT、EAT、UAT。
每个数据集都包括:
-
label(图节点的真实标签)
-
feat(图节点的自身属性)
-
adj(图结构对应的邻接矩阵)
2.1 Cora
Cora数据集包括2708份科学出版物,分为7类。引文网络由5429个链接组成。数据集中的每个出版物都由一个0/1值的词向量描述,表示字典中对应的词是否存在。这本词典由1433个独特的单词组成。
2.2 Citeseer
Citeseer数据集包含3312份科学出版物,分为六类。引文网络由4732个链接组成。数据集中的每个出版物都由一个0/1值的词向量描述,表示字典中对应的词是否存在。这部词典由3703个独特的单词组成。
2.3 Pubmed
Pubmed数据集包括Pubmed数据库中有关糖尿病的19717篇科学论文,分为三类。引文网络由44338个链接组成。数据集中的每个出版物都由字典中的TF/IDF加权词向量描述,该字典由500个唯一的单词组成。
2.4 DBLP
DBLP数据集是来自dblp网站的作者网络。如果是共同作者关系,则两个作者之间有一条边。作者将研究内容分为四个方面:数据库、数据挖掘、机器学习和信息检索。我们根据每个作者提交的会议来标记他们的研究领域。作者特征是由关键字表示的词袋中的元素。
2.5 ACM
这是来自ACM数据集的论文网络。如果两篇论文是同一作者写的,那么两篇论文之间就有一条