【图神经网络基础】认识数据集--同质数据集Cora

最新推荐文章于 2024-07-01 14:48:20 发布

鳗小鱼

最新推荐文章于 2024-07-01 14:48:20 发布

阅读量1k

点赞数 10

分类专栏：图神经网络文章标签：神经网络机器学习深度学习图论人工智能分类聚类

本文链接：https://blog.csdn.net/BetrayFree/article/details/139066299

版权

图神经网络专栏收录该内容

11 篇文章 2 订阅

订阅专栏

Cora数据集是一个常用于图神经网络（GNN）研究的标准基准数据集，特别是用于节点分类任务。以下是关于Cora数据集的详细介绍：

数据集概述

Cora数据集由学术论文组成，每篇论文被视为一个节点，引用关系被视为边。该数据集包含七个类别的论文，每个节点都带有特征向量和标签。数据集的主要任务是根据节点的特征和图结构对节点进行分类。

数据集组成

节点（Papers）：
- 每个节点代表一篇学术论文。
- 每篇论文有一个独特的特征向量，表示该论文的内容。
边（Citations）：
- 每条边代表一篇论文对另一篇论文的引用关系。
- 边是无向的，即引用关系被视为对称的。
特征（Features）：
- 每个节点的特征向量是一个词袋模型（Bag of Words）表示。
- 特征向量维度是1433，即词汇表大小为1433。
标签（Labels）：
- 每个节点（论文）属于一个类别，共有七个类别。
- 类别标签包括：Case Based, Genetic Algorithms, Neural Networks, Probabilistic Methods, Reinforcement Learning, Rule Learning, Theory.

数据集统计

节点数：2708
边数：5429
特征维度：1433
类别数：7

数据表示

Cora数据集通常以图的形式表示，其中包含以下内容：

邻接矩阵（Adjacency Matrix）：表示图的结构，其中A[i,j]=1表示节点i和节点j之间有边，A[i,j]=0表示无边。
特征矩阵（Feature Matrix）：表示节点特征，其中每行对应一个节点的特征向量。
标签矩阵（Label Matrix）：表示每个节点的类别标签。

示例数据

假设我们有一个简单的子图，包含3个节点和3条边：

节点: Paper1, Paper2, Paper3
边: (Paper1 - Paper2), (Paper2 - Paper3), (Paper3 - Paper1)

假设特征维度为3（实际数据集为1433维），特征矩阵和邻接矩阵可以表示为：

特征矩阵（Feature Matrix）：

| Paper | Feature1 | Feature2 | Feature3 |
|-------|----------|----------|----------|
|  1    |    1     |    0     |    3     |
|  2    |    0     |    2     |    1     |
|  3    |    1     |    1     |    0     |

邻接矩阵（Adjacency Matrix）：

|       | Paper1 | Paper2 | Paper3 |
|-------|--------|--------|--------|
| Paper1|   0    |   1    |   1    |
| Paper2|   1    |   0    |   1    |
| Paper3|   1    |   1    |   0    |

使用场景

Cora数据集主要用于以下研究场景：

节点分类：基于节点的特征和图结构，预测节点的类别标签。
图嵌入：将节点嵌入到低维向量空间中，以便在嵌入空间中进行分类、聚类等任务。
图神经网络模型评估：评估各种GNN模型的性能，如GCN（Graph Convolutional Network）、GAT（Graph Attention Network）等。