GNN图神经网络常用数据集总结

力争上游_

已于 2025-03-18 15:50:33 修改

阅读量3.5w

点赞数 35

分类专栏： GNN 文章标签：神经网络人工智能深度学习图论

于 2023-12-23 17:11:03 首次发布

本文链接：https://blog.csdn.net/m0_57102661/article/details/135171191

版权

GNN 专栏收录该内容

2 篇文章

订阅专栏

GNN图神经网络常用数据集总结

GNN介绍
GNN常用数据集
一、Cora数据集
二、Citeseer数据集
三、PubMed
四、Reddit
五、PPI (Protein-Protein Interaction)

GNN介绍

图神经网络（Graph Neural Network，GNN）是一种新兴的神经网络模型，适用于处理图数据。与传统的神经网络模型不同，GNN 能够有效地捕捉节点之间的结构信息和关系，并对节点进行精准的分类、聚类和预测分析。因此，GNN 在社交网络、生物信息学、推荐系统、物联网等领域得到了广泛的应用。
为了研究和评估 GNN 的性能，需要使用各种不同类型的数据集。这些数据集包含了不同领域的实际问题，例如社交网络中的用户关系、生物学中的蛋白质分子结构、推荐系统中的用户行为等。这些数据集可以用于训练和测试 GNN 模型的性能，并且可以帮助研究人员深入理解 GNN 的工作原理和应用场景。本文将介绍一些常见的 GNN 数据集，并分析它们的特点和适用范围，以便帮助初学者更好地了解和应用 GNN 技术。
在这里插入图片描述

GNN常用数据集

GNN（图神经网络）常用的数据集包括但不限于以下几种：

Cora
Cora数据集是一个用于文献分类的常见数据集，包含了来自七个不同类别的文献的特征和引用关系。这个数据集通常被用来进行节点分类和论文引用关系分析等任务。
Citeseer
类似于Cora数据集，Citeseer数据集也是用于文献分类的常见数据集，包含了来自六个不同类别的文献的特征和引用关系。它也被广泛应用于节点分类和引用关系分析等任务。
PubMed
PubMed数据集是一个生物医学文献分类数据集，包含了来自三个不同类别的文献的特征和引用关系。这个数据集通常用于生物信息学领域的节点分类和文献关系分析等任务。
Reddit
Reddit数据集是一个社交网络数据集，包含了来自不同社区的用户以及他们之间的交互关系。这个数据集通常被用来进行社区发现、用户分类等任务。
PPI (Protein-Protein Interaction)
PPI数据集是用于蛋白质相互作用预测的数据集，包含了蛋白质以及它们之间的相互作用关系。这个数据集通常被用来进行蛋白质相互作用预测等任务。
下面将具体进行介绍

一、Cora数据集

Cora数据集由机器学习论文组成，论文被分为以下七类：

Case Based
Genetic Algorithms
Neural Networks
Probabilistic Methods
Reinforcement Learning
Rule Learning
Theory
论文的选择方式是，在最终的语料库中，每一篇论文都引用或被至少一篇其他论文引用。整个语料库共有2708篇论文。在词干提取和删除停止词之后，我们只剩下1433个大小独特的单词。删除所有文档频率小于10的单词。

二、Citeseer数据集

论文分为六类：Agents、AI（人工智能）、DB（数据库）、IR（信息检索）、ML（机器语言）和HCI。
共包含3312篇论文，记录了论文之间引用或被引用信息。去除停用词和在文档中出现频率小于10次的词，整理得到3703个唯一词。CiteSeer数据集包含两个文件：.content文件和.cites文件：.content文件描述论文信息的格式为：<paper_id> <word_attributes>+<class_label>；每行的第一个条目（paper_id）是每篇论文的唯一编号ID，后续（word_attributes）包含3703个二进制码，表示词汇表中的每个单词在论文中是否存在（由1表示）或不存在（由0表示），最后一个条目（class_label）表示论文的类标签。.cites文件描述了论文之间的引用信息，格式为：。每行数据包含了两篇论文的编码ID，第一个条目（ID of cited paper）表示被引用论文的编号，第二个条目（ID of citing paper）表示引用论文的编号。
Citeseer数据集主要由计算机科学领域的学术论文组成，每篇论文有一个标签，并且具有诸如标题、作者、摘要和引用等特征。此外，数据集还提供了不同论文之间的引用关系，可以用于分析论文之间的相互影响和关联。对于GNN的研究，Citeseer数据集被广泛应用于节点分类、引文关系分析和文献推荐等任务。通过使用GNN模型，可以根据论文的特征和引用关系来预测论文所属的类别，探索论文之间的相似性和相关性，以及为用户生成个性化的文献推荐。Citeseer数据集的使用使得研究人员能够在真实的学术环境中评估GNN模型的性能和效果，推动了图神经网络在文献分类和推荐系统等领域的应用和发展。

三、PubMed

PubMed数据集是一个广泛应用于生物医学领域的文献分类数据集。它包含了来自三个不同类别的生物医学文献的特征和关系信息。这些类别通常是疾病、基因和化学物质。
PubMed数据集中的文献包含了丰富的特征信息，如标题、摘要、作者、关键词等。此外，数据集还提供了文献之间的引用关系，可以用于分析文献之间的相互引用和关联性。对于图神经网络（GNN）的研究，PubMed数据集被广泛应用于节点分类、文献关系分析和知识图谱构建等任务。通过使用GNN模型，可以根据文献的特征和引用关系来预测文献所属的类别（如疾病、基因或化学物质），探索文献之间的相似性和相关性，以及构建生物医学知识图谱。
PubMed数据集的使用有助于研究人员在生物医学领域中评估GNN模型的性能和效果，推动图神经网络在文献分类、知识图谱构建和药物发现等方面的应用和发展。它为生物医学研究提供了一个丰富的实验数据集，并有助于加深对生物医学领域的理解和探索。

四、Reddit

Reddit数据集是一个用于社交网络分析和挖掘的常见数据集，包含了来自不同社区的用户以及他们之间的交互关系。这个数据集通常被用来进行社区发现、用户分类、推荐系统等任务。
Reddit是一个知名的社交新闻网站，用户可以在上面分享链接、投票和评论。Reddit数据集中的信息包括用户发布的帖子、评论、投票行为等，这些数据可以被用来构建用户网络、分析用户兴趣、发现热门话题等。对于图神经网络（GNN）的研究，Reddit数据集被广泛应用于用户社区分类、内容推荐和用户行为预测等任务。通过使用GNN模型，可以根据用户的行为和交互关系来推断用户的社区归属、预测用户的兴趣，以及为用户生成个性化的内容推荐。
Reddit数据集的使用有助于研究人员在社交网络分析和推荐系统领域评估GNN模型的性能和效果，推动图神经网络在社交网络应用、用户行为分析和社区发现等方面的应用和发展。它为研究人员提供了丰富的实验数据，帮助他们深入理解社交网络的结构和用户行为规律。

五、PPI (Protein-Protein Interaction)

PPI（蛋白质相互作用）数据集是用于生物信息学和生物医学领域的重要数据集之一。这个数据集包含了不同蛋白质之间相互作用的信息，对研究蛋白质结构和功能具有重要意义。
在PPI数据集中，通常会包含已知的蛋白质相互作用关系，这些关系可以描述为一个由节点和边组成的图。其中，图的节点代表不同的蛋白质，而图的边则表示蛋白质之间的相互作用关系。对于图神经网络（GNN）的研究，PPI数据集被广泛应用于预测新的蛋白质相互作用、研究蛋白质网络的拓扑结构、发现蛋白质功能模块等任务。通过使用GNN模型，可以利用蛋白质的结构特征和相互作用关系来预测未知的蛋白质相互作用，探索蛋白质网络的特性和功能，以及发现潜在的生物学规律。
PPI数据集的使用有助于生物信息学和生物医学领域的研究人员评估GNN模型在预测蛋白质相互作用方面的性能和效果，推动图神经网络在生物信息学、药物发现和疾病治疗等领域的应用和发展。它为研究人员提供了重要的实验数据，有助于深入理解蛋白质相互作用网络的复杂性和生物学意义。