- D&D 在蛋白质数据库的非冗余子集中抽取了了1178个高分辨率蛋白质,使用简单的特征,如二次结构含量、氨基酸倾向、表面性质和配体;其中节点是氨基酸,如果两个节点之间的距离少于6埃(Angstroms),则用一条边连接。(DD数据集中节点是没有标签的,节点只有特征)
- PROTEIN 则是另一个蛋白质网络。任务是判断这类分子是否酶类。
- NCI-1 是关于化学分子和化合物的数据集,节点代表原子,边代表化学键。NCI-1包含4100个化合物,任务是判断该化合物是否有阻碍癌细胞增长的性质。
用于抗癌活性分类的生物学数据集。在数据集中,每个图形代表一种化学化合物,节点和边分别代表原子和化学键。其中NCI1是针对非小细胞肺癌的活性筛选,NCI109是针对卵巢癌细胞的活性筛选。 - FRANKENSTEIN 是一组分子图,其节点特征包含连续值。标签表示分子是诱变剂还是非诱变剂。
[基准数据集涉及文章Kersting, K., Kriege, N. M., Morris, C., Mutzel, P.,and Neumann, M. Benchmark data sets for graph kernels, 2016.]
[这里的数据集 是对于sagpool 的基准数据集,SAGPool是一种基于自注意的新型图池化方法。具有以下特征:分层池化,同时考虑节点特征和图拓扑,合理的复杂性以及端到端表示学习。无论输入图形的大小如何,SAGPool都会使用一致数量的参数。所以说节点需要有特征]
图分类任务常用数据集
最新推荐文章于 2024-03-03 08:53:58 发布