【Python】cora数据集的读取和处理

最新推荐文章于 2022-12-17 14:49:05 发布

智慧的旋风

最新推荐文章于 2022-12-17 14:49:05 发布

阅读量5.3k

点赞数 5

分类专栏： python深度学习文章标签： python 机器学习深度学习

本文链接：https://blog.csdn.net/weixin_41650348/article/details/109406230

版权

这篇博客介绍了Cora数据集的读取和处理方法。数据集包含2708篇科学论文，分为7个类别，每篇论文用1433维的词向量表示。内容包括论文的特征矩阵、标签的独热编码、邻接矩阵的构建等。通过Python的pandas库，可以方便地读取和处理这些数据，为图卷积网络等任务做准备。

摘要由CSDN通过智能技术生成

cora数据集的读取和处理

参考资料：《Cora数据集介绍+python读取》、《图数据集之cora数据集介绍- 用pyton处理 - 可用于GCN任务》。

Cora
- Cora数据集包含2708个科学出版物，分为七个类别之一。引文网络由5429个链接组成。数据集中的每个出版物都用0/1值的词向量描述，该词向量指示字典中是否存在相应的词。该词典包含1433个独特的单词。数据集中的README文件提供了更多详细信息。
- Download Link:
  - https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz
- Cora数据集由机器学习论文组成。这些论文分为以下七个类别之一：
  - Case_Based
  - Genetic_Algorithms
  - Neural_Networks
  - Probabilistic_Methods
  - Reinforcement_Learning
  - Rule_Learning
  - Theory

1、导包并读入cora

import numpy as np
import pandas as pd

#读入.content文件
cora_content = pd.read_csv('./data/cora/cora.content',sep='\t',header=None)
#查看数据集初始格式
print(cora_content.shape)
print(cora_content.head(3))

(2708, 1435)
      0     1     2     3     4     5     6     7     8     9     ...  1425  \
0    31336     0     0     0     0     0     0     0     0     0  ...     0   
1  1061127     0     0     0     0     0     0     0     0