图神经网络实战(5)——常用图数据集
0. 前言
图数据集往往比单纯的连接集合更丰富,节点和边也可以具有表示分数、颜色、单词等的特征。在输入数据中包含这些附加信息对于生成最佳嵌入至关重要。而由于节点和边的特征与表格(非图)数据集具有相同的结构,意味着神经网络等经典技术可以应用于这些数据。在本节中,我们将介绍两个常见图数据集:Cora
和 Facebook Page-Page
。
0. 图数据集介绍
在图神经网络 (Graph Neural Networks
, GNN
) 中所使用的图数据集通常比 Zachary’s Karate Club 数据集更丰富:它们有更多的节点、更多的边,并且包含节点特征。在本节中,我们将对常用的两个数据集进行介绍,以便让我们对这些图有一个全面的了解,并了解如何用 PyTorch Geometric
处理它们:
Cora
数据集Facebook Page-Page
数据集
2. Cora 数据集
Cora
数据集由 Sen
等人于 2008
年提出,是科学文献中最流行的节点分类数据集。它是一个由 2708
篇出版物组成的网络,其中每个连接都是一个引用。每篇出版物都被描述为一个由 1,433
个唯一单词组成的二进制向量,其中 0