【图神经网络基础】认识数据集--同质数据集Cora

        Cora数据集是一个常用于图神经网络(GNN)研究的标准基准数据集,特别是用于节点分类任务。以下是关于Cora数据集的详细介绍:

数据集概述

        Cora数据集由学术论文组成,每篇论文被视为一个节点,引用关系被视为边。该数据集包含七个类别的论文,每个节点都带有特征向量和标签。数据集的主要任务是根据节点的特征和图结构对节点进行分类。

数据集组成

  1. 节点(Papers)

    • 每个节点代表一篇学术论文。
    • 每篇论文有一个独特的特征向量,表示该论文的内容。
  2. 边(Citations)

    • 每条边代表一篇论文对另一篇论文的引用关系。
    • 边是无向的,即引用关系被视为对称的。
  3. 特征(Features)

    • 每个节点的特征向量是一个词袋模型(Bag of Words)表示。
    • 特征向量维度是1433,即词汇表大小为1433。
  4. 标签(Labels)

    • 每个节点(论文)属于一个类别,共有七个类别。
    • 类别标签包括:Case Based, Genetic Algorithms, Neural Networks, Probabilistic Methods, Reinforcement Learning, Rule Learning, Theory.

数据集统计

  • 节点数:2708
  • 边数:5429
  • 特征维度:1433
  • 类别数:7

数据表示

Cora数据集通常以图的形式表示,其中包含以下内容:

  • 邻接矩阵(Adjacency Matrix):表示图的结构,其中A[i,j]=1表示节点i和节点j之间有边,A[i,j]=0表示无边。
  • 特征矩阵(Feature Matrix):表示节点特征,其中每行对应一个节点的特征向量。
  • 标签矩阵(Label Matrix):表示每个节点的类别标签。

示例数据

假设我们有一个简单的子图,包含3个节点和3条边:

节点: Paper1, Paper2, Paper3
边: (Paper1 - Paper2), (Paper2 - Paper3), (Paper3 - Paper1)

假设特征维度为3(实际数据集为1433维),特征矩阵和邻接矩阵可以表示为:

特征矩阵(Feature Matrix)

| Paper | Feature1 | Feature2 | Feature3 |
|-------|----------|----------|----------|
|  1    |    1     |    0     |    3     |
|  2    |    0     |    2     |    1     |
|  3    |    1     |    1     |    0     |

邻接矩阵(Adjacency Matrix)

|       | Paper1 | Paper2 | Paper3 |
|-------|--------|--------|--------|
| Paper1|   0    |   1    |   1    |
| Paper2|   1    |   0    |   1    |
| Paper3|   1    |   1    |   0    |

使用场景

Cora数据集主要用于以下研究场景:

  • 节点分类:基于节点的特征和图结构,预测节点的类别标签。
  • 图嵌入:将节点嵌入到低维向量空间中,以便在嵌入空间中进行分类、聚类等任务。
  • 图神经网络模型评估:评估各种GNN模型的性能,如GCN(Graph Convolutional Network)、GAT(Graph Attention Network)等。

常用处理步骤

  1. 数据预处理

    • 读取特征矩阵、邻接矩阵和标签。
    • 对特征进行标准化处理。
    • 划分训练集、验证集和测试集。
  2. 模型训练

    • 构建GNN模型。
    • 使用训练集进行模型训练,并在验证集上调参。
  3. 模型评估

    • 在测试集上评估模型性能。
    • 使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等指标进行评估。

参考文献

        Cora数据集最早由 McCallum et al. 在他们的论文 "Automating the Construction of Internet Portals with Machine Learning" 中提出。该数据集现在被广泛用于各种图神经网络的研究和评估。

https://people.csail.mit.edu/jrennie/papers/cora-irj2000.pdficon-default.png?t=N7T8https://people.csail.mit.edu/jrennie/papers/cora-irj2000.pdf        在实验中常用的数据集是什么样子的呢?

【数据集介绍】Cora数据集介绍-CSDN博客文章浏览阅读2.5w次,点赞39次,收藏100次。  在做深度学习任务时,刚入手一个模型用到的一般是经典数据集。而且在模型中都集成好了,不需要做过多的处理。但是,在使用模型跑自己数据集时候,我们就必须了解模型的输入输出是什么。因此,对标准数据集是啥样的必须要掌握。在这里介绍一个Cora引文数据集:[1]图数据集之cora数据集介绍 — 适用于GCN任务[2]8/27 图数据集之cora数据集..._cora数据集https://blog.csdn.net/zfhsfdhdfajhsr/article/details/116137598

完结撒花

        别太向往南飞的雁,不过是为了活下去在奔波罢了

【资源说明】 基于python实现CORA数据集节点级分类项目源码(用GCN、SVM、FNN模型)+项目运行说明.zip - 数据集CORA 数据集 - 任务:多分类 - 使用模型GCN SVM FNN - 包括构、数据预处理及feature encoding 依赖库安装 ``` pip install requirements.txt # 以下4个库可能会安装失败 torch-scatter torch-sparse torch-cluster torch-spline-conv # 如果出现安装失败的提示,按照如下操作解决 # 1.获取cuda版本 # 2.使用如下命令安装 将${cuda}替换为自己的cuda版本即可,如果没有cuda环境,则将其替换为空字符串,安装cpu版本 pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-${cuda}.html pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-${cuda}.html pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-${cuda}.html pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-${cuda}.html ``` ### 程序运行 ``` 移动到main.py所在目录,执行命令: python main.py 等待命令执行完毕,大概需要运行3分钟左右 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载,沟通交流,互相学习,共同进步!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值