[数据集]图卷积数据集汇总

持续更新

1. 化学数据集

1.1. PCQM4Mv2

(1)网址:PCQM4Mv2系列 |Open Graph 基准测试 (stanford.edu)

(2)简介:PCQM4Mv2 是一个量子化学数据集,最初是在 PubChemQC 项目下策划的。由于 SMILES 更新,一些分子无法再被常用的化学工具包(即 rdkit)解析。结果,分子总数略微减少到 3,746,619 个。对于 PCQM4Mv2,将 train/validation/test-dev/test-challenge 的拆分比设置为 90/2/4/4。拆分仍由 PubChem 化合物 ID 完成,因此没有测试标签泄漏,即 PCQM4Mv2 中的所有测试分子都在 PCQM4M 的测试拆分中。

1.2. ZINC

(1)网址:ZINC (docking.org)

(2)简介:欢迎访问ZINC,这是一个免费的商业化合物数据库,用于虚拟筛选。ZINC含有超过2.3亿种可购买的现成3D格式化合物。锌还含有超过7.5亿种可购买的化合物,你可以在一分钟内搜索类似物。

1.3. PPI

(1)下载:http://snap.stanford.edu/graphsage/ppi.zip

(2)简介:蛋白质的作用——就其细胞功能而言,从 基因本体——在各种蛋白质-蛋白质相互作用 (PPI) 图中,每个图对应 到不同的人体组织。使用位置基因集、基序基因集和免疫学 特征作为特征,基因本体集作为标签(共 121 个),从分子中收集 签名数据库。平均图包含 2373 个节点,平均度为 28.8。

1.4. PubChem

(1)网址:PubChem (nih.gov)

(2)简介:PubChem是世界上最大的免费获取化学信息的集合。按名称、分子式、结构和其他标识符搜索化学品。查找化学和物理特性、生物活性、安全性和毒性信息、专利、文献引用等。

2. 引文数据集

2.1. Cora

(1)下载:项目概览 - planetoid - GitCode

(2)简介:

Cora数据集是一个经典的文本分类数据集,主要由两个文件组成:cora.content和cora.cites。其中,cora.content文件包含了2708篇论文的详细信息,每篇论文都被表示为一个1433维的词向量,并标注了相应的类别标签。这些类别标签共有7个,代表了不同的机器学习领域。另一方面,cora.cites文件则记录了这些论文之间的引用关系,每一行包含两个论文编号,表示第一个论文被第二个论文所引用。

在数据结构和特征表示上,Cora数据集中的每篇论文都被视为图中的一个节点,而论文之间的引用关系则构成了图中的边。因此,Cora数据集也可以被视为一个大型的文本图网络。每个节点(即每篇论文)都具有1433个特征(即词袋特征向量),这些特征用于描述论文的内容。

2.2. Citeseer

(1)下载:GitHub - ZPowerZ/citeseer-dataset

(2)简介:

Cora数据集是一个经典的文本分类数据集,主要由两个文件组成:cora.content和cora.cites。其中,cora.content文件包含了2708篇论文的详细信息,每篇论文都被表示为一个1433维的词向量,并标注了相应的类别标签。这些类别标签共有7个,代表了不同的机器学习领域。另一方面,cora.cites文件则记录了这些论文之间的引用关系,每一行包含两个论文编号,表示第一个论文被第二个论文所引用。

在数据结构和特征表示上,Cora数据集中的每篇论文都被视为图中的一个节点,而论文之间的引用关系则构成了图中的边。因此,Cora数据集也可以被视为一个大型的文本图网络。每个节点(即每篇论文)都具有1433个特征(即词袋特征向量),这些特征用于描述论文的内容。

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值