Cornell 数据集是图神经网络(GNN)研究中的一个基准数据集,类似于 Texas 数据集。它也来自美国高校的网页链接数据,具体来说是康奈尔大学(Cornell University)的网页和它们之间的超链接关系。该数据集用于评估和测试 GNN 模型在节点分类任务中的性能。
数据集概述
-
节点(Webpages):
- 每个节点代表一个网页。
- 每个网页有一个特征向量,通常使用词袋模型(Bag of Words)表示网页内容。
-
边(Hyperlinks):
- 每条边表示一个网页到另一个网页的超链接。
- 边是有向的,即超链接有方向性。
-
标签(Labels):
- 每个网页被标注为5个类别之一。
数据集统计
- 节点数:183
- 边数:280
- 特征维度:1703
- 类别数:5
数据表示
特征矩阵(Feature Matrix):表示节点特征,其中每行对应一个节点的特征向量。
邻接矩阵(Adjacency Matrix):表示图的结构,其中A[i,j]=1 表示节点 i 和节点 j 之间有边, A[i,j]=0 表示无边。
使用场景
Cornell 数据集主要用于以下研究场景:
- 节点分类:根据网页的内容和链接关系,预测网页的类别。
- 图嵌入:将节点嵌入到低维向量空间中,以便在嵌入空间中进行分类、聚类等任务。
- 图神经网络模型评估:评估各种 GNN 模型的性能,如 GCN(Graph Convolutional Network)、GAT(Graph Attention Network)等。
常用处理步骤
-
数据预处理:
- 读取特征矩阵、邻接矩阵和标签。
- 对特征进行标准化处理。
- 划分训练集、验证集和测试集。
-
模型训练:
- 构建 GNN 模型。
- 使用训练集进行模型训练,并在验证集上调参。
-
模型评估:
- 在测试集上评估模型性能。
- 使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等指标进行评估。
实验和性能
在使用 Cornell 数据集进行实验时,研究人员通常会比较不同 GNN 模型在节点分类任务上的性能。常见的评估指标包括准确率(Accuracy)、宏观 F1 值(Macro F1-score)等。通过这些指标,可以评估模型在处理小规模图数据集上的表现。
参考文献
http://eliassi.org/papers/ai-mag-tr08.pdfhttp://eliassi.org/papers/ai-mag-tr08.pdf
Austin R. Benson datasetshttps://www.cs.cornell.edu/~arb/data/
结论
Cornell 数据集为图神经网络研究提供了一个小规模且标注明确的基准数据集。通过该数据集,研究人员可以评估和比较不同 GNN 模型在节点分类任务中的表现,为进一步优化和改进模型提供参考。这个数据集与 Texas 数据集一起,常用于图神经网络的实验和研究,帮助研究人员理解和改进模型在处理小规模图数据时的性能。