持续更新
1. 化学数据集
1.1. PCQM4Mv2
(1)网址:PCQM4Mv2系列 |Open Graph 基准测试 (stanford.edu)
(2)简介:PCQM4Mv2 是一个量子化学数据集,最初是在 PubChemQC 项目下策划的。由于 SMILES 更新,一些分子无法再被常用的化学工具包(即 rdkit)解析。结果,分子总数略微减少到 3,746,619 个。对于 PCQM4Mv2,将 train/validation/test-dev/test-challenge 的拆分比设置为 90/2/4/4。拆分仍由 PubChem 化合物 ID 完成,因此没有测试标签泄漏,即 PCQM4Mv2 中的所有测试分子都在 PCQM4M 的测试拆分中。
1.2. ZINC
(1)网址:ZINC (docking.org)
(2)简介:欢迎访问ZINC,这是一个免费的商业化合物数据库,用于虚拟筛选。ZINC含有超过2.3亿种可购买的现成3D格式化合物。锌还含有超过7.5亿种可购买的化合物,你可以在一分钟内搜索类似物。
1.3. PPI
(1)下载:http://snap.stanford.edu/graphsage/ppi.zip
(2)简介:蛋白质的作用——就其细胞功能而言,从 基因本体——在各种蛋白质-蛋白质相互作用 (PPI) 图中,每个图对应 到不同的人体组织。使用位置基因集、基序基因集和免疫学 特征作为特征,基因本体集作为标签(共 121 个),从分子中收集 签名数据库。平均图包含 2373 个节点,平均度为 28.8。
1.4. PubChem
(1)网址:PubChem (nih.gov)
(2)简介:PubChem是世界上最大的免费获取化学信息的集合。按名称、分子式、结构和其他标识符搜索化学品。查找化学和物理特性、生物活性、安全性和毒性信息、专利、文献引用等。
2. 引文数据集
2.1. Cora
(1)下载:项目概览 - planetoid - GitCode
(2)简介:
Cora数据集是一个经典的文本分类数据集,主要由两个文件组成:cora.content和cora.cites。其中,cora.content文件包含了2708篇论文的详细信息,每篇论文都被表示为一个1433维的词向量,并标注了相应的类别标签。这些类别标签共有7个,代表了不同的机器学习领域。另一方面,cora.cites文件则记录了这些论文之间的引用关系,每一行包含两个论文编号,表示第一个论文被第二个论文所引用。
在数据结构和特征表示上,Cora数据集中的每篇论文都被视为图中的一个节点,而论文之间的引用关系则构成了图中的边。因此,Cora数据集也可以被视为一个大型的文本图网络。每个节点(即每篇论文)都具有1433个特征(即词袋特征向量),这些特征用于描述论文的内容。
2.2. Citeseer
(1)下载:GitHub - ZPowerZ/citeseer-dataset
(2)简介:
Cora数据集是一个经典的文本分类数据集,主要由两个文件组成:cora.content和cora.cites。其中,cora.content文件包含了2708篇论文的详细信息,每篇论文都被表示为一个1433维的词向量,并标注了相应的类别标签。这些类别标签共有7个,代表了不同的机器学习领域。另一方面,cora.cites文件则记录了这些论文之间的引用关系,每一行包含两个论文编号,表示第一个论文被第二个论文所引用。
在数据结构和特征表示上,Cora数据集中的每篇论文都被视为图中的一个节点,而论文之间的引用关系则构成了图中的边。因此,Cora数据集也可以被视为一个大型的文本图网络。每个节点(即每篇论文)都具有1433个特征(即词袋特征向量),这些特征用于描述论文的内容。