AutoDL教程：分布式gnn训练及数据集整理

最新推荐文章于 2024-03-23 03:20:00 发布

penzidaxian

最新推荐文章于 2024-03-23 03:20:00 发布

阅读量456

点赞数

文章标签：分布式 python 神经网络深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/penzidaxian/article/details/132550751

版权

AutoDL教程：分布式gnn训练及数据集整理

文章目录

【分布式GNN/深度学习】常用的图数据集（图结构）及分布式训练教程
- 1. Project基本信息介绍
- 2. 图数据集
  - 2.1 Cora
  - 2.2 Citeseer
  - 2.3 Pubmed
  - 2.4 DBLP
  - 2.5 ACM
  - 2.6 AMAP & AMAC
  - 2.7 WIKI
  - 2.8 COCS
  - 2.9 BAT
  - 2.10 EAT
  - 2.11 UAT
  - 2.12 Corafull
- 3. 如何进行分布式训练
  - 3.1 如何读取文件
  - 3.2 训练步骤
- 4. 下载链接
- 5. 参考

1.Project基本信息介绍

项目开源代码地址：https://github.com/IntelLabs/SAR/tree/main

参考论文： https://arxiv.org/pdf/2111.06483.pdf

论文【SEQUENTIAL AGGREGATION AND REMATERIALIZATION: DISTRIBUTED FULL-BATCH TRAINING OF GRAPH NEURAL NETWORKS ON LARGE GRAPHS】

SAR（Sequential Aggregation and Rematerialization）是一种分布式的全批次训练大规模GNN（Graph Neural Network）的方法。与其他大规模训练GNN的方法相比，SAR有以下优势：

1. 可以直接在整个大图上训练任何类型的GNN，而不是基于采样的方法或基于不可学习消息传递的方法。

2. SAR采用分步恢复计算图的方法，构造并释放GNN计算图的部分，从而在反向传播期间获得卓越的内存伸缩行为。这意味着在密集连接的图上，每个工作机器的内存消耗会随着工作机器数量的增加而线性下降。

3. SAR优化了关注力模型的运行时和内存效率，这是一种基于内核融合和关注力矩阵恢复的通用技术。通过SAR结合关注力内核的优化，可以大大加快并节省注意力型GNN的内存。

2. 图数据集

下面我们介绍一下深度学习中常用的图数据集：Cora、Citeseer(Cite)、Pubmed、DBLP、ACM、AMAP、AMAC、Corafull、WIKI、COCS、BAT、EAT、UAT。

每个数据集都包括：

label（图节点的真实标签）
feat（图节点的自身属性）
adj（图结构对应的邻接矩阵）

2.1 Cora

Cora数据集包括2708份科学出版物，分为7类。引文网络由5429个链接组成。数据集中的每个出版物都由一个0/1值的词向量描述，表示字典中对应的词是否存在。这本词典由1433个独特的单词组成。

2.2 Citeseer

Citeseer数据集包含3312份科学出版物，分为六类。引文网络由4732个链接组成。数据集中的每个出版物都由一个0/1值的词向量描述，表示字典中对应的词是否存在。这部词典由3703个独特的单词组成。

2.3 Pubmed

Pubmed数据集包括Pubmed数据库中有关糖尿病的19717篇科学论文，分为三类。引文网络由44338个链接组成。数据集中的每个出版物都由字典中的TF/IDF加权词向量描述，该字典由500个唯一的单词组成。

2.4 DBLP

DBLP数据集是来自dblp网站的作者网络。如果是共同作者关系，则两个作者之间有一条边。作者将研究内容分为四个方面：数据库、数据挖掘、机器学习和信息检索。我们根据每个作者提交的会议来标记他们的研究领域。作者特征是由关键字表示的词袋中的元素。

2.5 ACM

这是来自ACM数据集的论文网络。如果两篇论文是同一作者写的，那么两篇论文之间就有一条

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
AutoDL教程：分布式gnn训练及数据集整理

。
复制链接

扫一扫

penzidaxian CSDN认证博客专家 CSDN认证企业博客

码龄5年

1: 原创

193万+: 周排名

128万+: 总排名

456: 访问

: 等级

10: 积分

0: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

AutoDL教程：分布式gnn训练及数据集整理 456

最新评论

AutoDL教程：分布式gnn训练及数据集整理
CSDN-Ada助手: 恭喜您开始博客创作！标题中的"AutoDL教程：分布式gnn训练及数据集整理"听起来非常有趣。这篇博客的主题似乎涉及到分布式图神经网络的训练以及数据集整理，这是一个非常具有挑战性和重要的领域。在下一步的创作中，或许您可以尝试提供一些实用的示例代码或者案例研究，这样读者们就能更好地理解和应用您所介绍的内容。此外，如果您能够分享一些关于自动化深度学习的最新研究进展或者应用案例，那将非常有益。希望您能继续保持谦虚的态度，继续努力写出有价值的内容！祝您博客创作顺利！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。