[数据集]图卷积数据集汇总-CSDN博客

本文链接：https://blog.csdn.net/Sherlily/article/details/136498673

持续更新

1. 化学数据集

1.1. PCQM4Mv2

（1）网址：PCQM4Mv2系列 |Open Graph 基准测试 (stanford.edu)

（2）简介：PCQM4Mv2 是一个量子化学数据集，最初是在 PubChemQC 项目下策划的。由于 SMILES 更新，一些分子无法再被常用的化学工具包（即 rdkit）解析。结果，分子总数略微减少到 3,746,619 个。对于 PCQM4Mv2，将 train/validation/test-dev/test-challenge 的拆分比设置为 90/2/4/4。拆分仍由 PubChem 化合物 ID 完成，因此没有测试标签泄漏，即 PCQM4Mv2 中的所有测试分子都在 PCQM4M 的测试拆分中。

1.2. ZINC

（1）网址：ZINC (docking.org)

（2）简介：欢迎访问ZINC，这是一个免费的商业化合物数据库，用于虚拟筛选。ZINC含有超过2.3亿种可购买的现成3D格式化合物。锌还含有超过7.5亿种可购买的化合物，你可以在一分钟内搜索类似物。

1.3. PPI

（1）下载：http://snap.stanford.edu/graphsage/ppi.zip

（2）简介：蛋白质的作用——就其细胞功能而言，从基因本体——在各种蛋白质-蛋白质相互作用（PPI）图中，每个图对应到不同的人体组织。使用位置基因集、基序基因集和免疫学特征作为特征，基因本体集作为标签（共 121 个），从分子中收集签名数据库。平均图包含 2373 个节点，平均度为 28.8。

1.4. PubChem

（1）网址：PubChem (nih.gov)

（2）简介：PubChem是世界上最大的免费获取化学信息的集合。按名称、分子式、结构和其他标识符搜索化学品。查找化学和物理特性、生物活性、安全性和毒性信息、专利、文献引用等。

2. 引文数据集

2.1. Cora

（1）下载：项目概览 - planetoid - GitCode

（2）简介：

Cora数据集是一个经典的文本分类数据集，主要由两个文件组成：cora.content和cora.cites。其中，cora.content文件包含了2708篇论文的详细信息，每篇论文都被表示为一个1433维的词向量，并标注了相应的类别标签。这些类别标签共有7个，代表了不同的机器学习领域。另一方面，cora.cites文件则记录了这些论文之间的引用关系，每一行包含两个论文编号，表示第一个论文被第二个论文所引用。

在数据结构和特征表示上，Cora数据集中的每篇论文都被视为图中的一个节点，而论文之间的引用关系则构成了图中的边。因此，Cora数据集也可以被视为一个大型的文本图网络。每个节点（即每篇论文）都具有1433个特征（即词袋特征向量），这些特征用于描述论文的内容。