图分类常用数据集
整理了一下GNN图分类任务里常用的几个数据集。
数据集 | #图 | #节点 | #特征 | #边 | #标签 |
---|---|---|---|---|---|
D&D | 1179 | 334925 | 89 | 16886092 | 2 |
PROTEINS | 1113 | 43471 | 3 | 162088 | 2 |
NCI1 | 4110 | 122747 | 37 | 265506 | 2 |
NCI109 | 4127 | 122494 | 38 | 265208 | 2 |
FRANKENSTEIN | 4337 | 73283 | 780 | 155068 | 2 |
D&D 、PROTEINS
蛋白质结构图。一个节点代表一个氨基酸,如果两个节点之间的距离小于6A,则构成边。图的标签代表蛋白质时酶还是非酶。
NCI1、NCI109
用于抗癌活性分类的生物学数据集。在数据集中,每个图形代表一种化学化合物,节点和边分别代表原子和化学键。其中NCI1是针对非小细胞肺癌的活性筛选,NCI109是针对卵巢癌细胞的活性筛选。
FRANKENSTEIN
是一组分子图,其节点特征包含连续值。标签表示分子是诱变剂还是非诱变剂。