GNN各阶段执行时间实验【Citeseer、Pubmed、Reddit、OGB数据集】
数据集
包括Citeseer、Pubmed、Reddit、OGB数据集的说明、数据集的划分、各数据集的介绍。
数据集 | 图 | 节点 | 边 | 特征(x) | 标签(y) |
---|---|---|---|---|---|
Citeseer | 1 | 3327 | 4732 | 3703 | 6 |
Pubmed | 1 | 19717 | 44338 | 500 | 3 |
1 | 232965 | 11606919 | 602 | 41 | |
ogbn-arxiv | 1 | 169343 | 1166243 | 128 | 40 |
ogbn-products | 1 | 2449029 | 61859140 | 100 | 47 |
数据集划分(数量) | 训练集 | 验证集 | 测试集 |
---|---|---|---|
Citeseer | 120 | 500 | 1000 |
Pubmed | 60 | 500 | 1000 |
153431 | 23831 | 55703 | |
ogbn-arxiv | 90941 | 29799 | 48603 |
ogbn-products | 196615 | 39323 | 2213091 |
Citeseer、Pubmed
目前有三个流行的引文网络「小数据集」:Cora、Citeseer和Pubmed。这些benchmark由Kipf和Welling在GCN模型中推出。
我的博客:节点分类任务中的引文网络benchmark。
Reddit是一个大型的在线讨论论坛,我们使用Reddit帖子构建了一个图数据集。节点代表帖子,边代表同一个用户对这两个帖子都发表了评论。这个数据集总共包含232965个节点,平均度为492。
数据集下载地址:https://data.dgl.ai/dataset/reddit.zip。
OGB数据集