Cora数据集是一个常用于图神经网络(GNN)研究的标准基准数据集,特别是用于节点分类任务。以下是关于Cora数据集的详细介绍:
数据集概述
Cora数据集由学术论文组成,每篇论文被视为一个节点,引用关系被视为边。该数据集包含七个类别的论文,每个节点都带有特征向量和标签。数据集的主要任务是根据节点的特征和图结构对节点进行分类。
数据集组成
-
节点(Papers):
- 每个节点代表一篇学术论文。
- 每篇论文有一个独特的特征向量,表示该论文的内容。
-
边(Citations):
- 每条边代表一篇论文对另一篇论文的引用关系。
- 边是无向的,即引用关系被视为对称的。
-
特征(Features):
- 每个节点的特征向量是一个词袋模型(Bag of Words)表示。
- 特征向量维度是1433,即词汇表大小为1433。
-
标签(Labels):
- 每个节点(论文)属于一个类别,共有七个类别。
- 类别标签包括:
Case Based
,Genetic Algorithms
,Neural Networks
,Probabilistic Methods
,Reinforcement Learning
,Rule Learning
,Theory
.
数据集统计
- 节点数:2708
- 边数:5429
- 特征维度:1433
- 类别数:7
数据表示
Cora数据集通常以图的形式表示,其中包含以下内容:
- 邻接矩阵(Adjacency Matrix):表示图的结构,其中A[i,j]=1表示节点i和节点j之间有边,A[i,j]=0表示无边。
- 特征矩阵(Feature Matrix):表示节点特征,其中每行对应一个节点的特征向量。
- 标签矩阵(Label Matrix):表示每个节点的类别标签。
示例数据
假设我们有一个简单的子图,包含3个节点和3条边:
节点: Paper1, Paper2, Paper3
边: (Paper1 - Paper2), (Paper2 - Paper3), (Paper3 - Paper1)
假设特征维度为3(实际数据集为1433维),特征矩阵和邻接矩阵可以表示为:
特征矩阵(Feature Matrix):
| Paper | Feature1 | Feature2 | Feature3 |
|-------|----------|----------|----------|
| 1 | 1 | 0 | 3 |
| 2 | 0 | 2 | 1 |
| 3 | 1 | 1 | 0 |
邻接矩阵(Adjacency Matrix):
| | Paper1 | Paper2 | Paper3 |
|-------|--------|--------|--------|
| Paper1| 0 | 1 | 1 |
| Paper2| 1 | 0 | 1 |
| Paper3| 1 | 1 | 0 |
使用场景
Cora数据集主要用于以下研究场景:
- 节点分类:基于节点的特征和图结构,预测节点的类别标签。
- 图嵌入:将节点嵌入到低维向量空间中,以便在嵌入空间中进行分类、聚类等任务。
- 图神经网络模型评估:评估各种GNN模型的性能,如GCN(Graph Convolutional Network)、GAT(Graph Attention Network)等。
常用处理步骤
-
数据预处理:
- 读取特征矩阵、邻接矩阵和标签。
- 对特征进行标准化处理。
- 划分训练集、验证集和测试集。
-
模型训练:
- 构建GNN模型。
- 使用训练集进行模型训练,并在验证集上调参。
-
模型评估:
- 在测试集上评估模型性能。
- 使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等指标进行评估。
参考文献
Cora数据集最早由 McCallum et al. 在他们的论文 "Automating the Construction of Internet Portals with Machine Learning" 中提出。该数据集现在被广泛用于各种图神经网络的研究和评估。
https://people.csail.mit.edu/jrennie/papers/cora-irj2000.pdfhttps://people.csail.mit.edu/jrennie/papers/cora-irj2000.pdf 在实验中常用的数据集是什么样子的呢?
完结撒花
别太向往南飞的雁,不过是为了活下去在奔波罢了