AutoDL教程:分布式gnn训练及数据集整理

AutoDL教程:分布式gnn训练及数据集整理

文章目录

  • 【分布式GNN/深度学习】常用的图数据集(图结构)及分布式训练教程

    • 1. Project基本信息介绍

    • 2. 图数据集

      • 2.1 Cora

      • 2.2 Citeseer

      • 2.3 Pubmed

      • 2.4 DBLP

      • 2.5 ACM

      • 2.6 AMAP & AMAC

      • 2.7 WIKI

      • 2.8 COCS

      • 2.9 BAT

      • 2.10 EAT

      • 2.11 UAT

      • 2.12 Corafull

    • 3. 如何进行分布式训练

      • 3.1 如何读取文件

      • 3.2 训练步骤

    • 4. 下载链接

    • 5. 参考

1.Project基本信息介绍

项目开源代码地址:https://github.com/IntelLabs/SAR/tree/main

参考论文: https://arxiv.org/pdf/2111.06483.pdf

论文【SEQUENTIAL AGGREGATION AND REMATERIALIZATION: DISTRIBUTED FULL-BATCH TRAINING OF GRAPH NEURAL NETWORKS ON LARGE GRAPHS】

SAR(Sequential Aggregation and Rematerialization)是一种分布式的全批次训练大规模GNN(Graph Neural Network)的方法。与其他大规模训练GNN的方法相比,SAR有以下优势:

1. 可以直接在整个大图上训练任何类型的GNN,而不是基于采样的方法或基于不可学习消息传递的方法。

2. SAR采用分步恢复计算图的方法,构造并释放GNN计算图的部分,从而在反向传播期间获得卓越的内存伸缩行为。这意味着在密集连接的图上,每个工作机器的内存消耗会随着工作机器数量的增加而线性下降。

3. SAR优化了关注力模型的运行时和内存效率,这是一种基于内核融合和关注力矩阵恢复的通用技术。通过SAR结合关注力内核的优化,可以大大加快并节省注意力型GNN的内存。

2. 图数据集

下面我们介绍一下深度学习中常用的图数据集:Cora、Citeseer(Cite)、Pubmed、DBLP、ACM、AMAP、AMAC、Corafull、WIKI、COCS、BAT、EAT、UAT。

每个数据集都包括:

  • label(图节点的真实标签)

  • feat(图节点的自身属性)

  • adj(图结构对应的邻接矩阵)​​​​​​​

2.1 Cora

 

Cora数据集包括2708份科学出版物,分为7类。引文网络由5429个链接组成。数据集中的每个出版物都由一个0/1值的词向量描述,表示字典中对应的词是否存在。这本词典由1433个独特的单词组成。

2.2 Citeseer

Citeseer数据集包含3312份科学出版物,分为六类。引文网络由4732个链接组成。数据集中的每个出版物都由一个0/1值的词向量描述,表示字典中对应的词是否存在。这部词典由3703个独特的单词组成。

2.3 Pubmed

Pubmed数据集包括Pubmed数据库中有关糖尿病的19717篇科学论文,分为三类。引文网络由44338个链接组成。数据集中的每个出版物都由字典中的TF/IDF加权词向量描述,该字典由500个唯一的单词组成。

2.4 DBLP

DBLP数据集是来自dblp网站的作者网络。如果是共同作者关系,则两个作者之间有一条边。作者将研究内容分为四个方面:数据库、数据挖掘、机器学习和信息检索。我们根据每个作者提交的会议来标记他们的研究领域。作者特征是由关键字表示的词袋中的元素。

2.5 ACM

这是来自ACM数据集的论文网络。如果两篇论文是同一作者写的,那么两篇论文之间就有一条

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值