cora数据集的读取和处理
参考资料:《Cora数据集介绍+python读取》、《图数据集之cora数据集介绍- 用pyton处理 - 可用于GCN任务》。
- Cora
- Cora数据集包含2708个科学出版物,分为七个类别之一。引文网络由5429个链接组成。数据集中的每个出版物都用0/1值的词向量描述,该词向量指示字典中是否存在相应的词。该词典包含1433个独特的单词。数据集中的README文件提供了更多详细信息。
- Download Link:
- Cora数据集由机器学习论文组成。这些论文分为以下七个类别之一:
- Case_Based
- Genetic_Algorithms
- Neural_Networks
- Probabilistic_Methods
- Reinforcement_Learning
- Rule_Learning
- Theory
1、导包并读入cora
import numpy as np
import pandas as pd
#读入.content文件
cora_content = pd.read_csv('./data/cora/cora.content',sep='\t',header=None)
#查看数据集初始格式
print(cora_content.shape)
print(cora_content.head(3))
(2708, 1435)
0 1 2 3 4 5 6 7 8 9 ... 1425 \
0 31336 0 0 0 0 0 0 0 0 0 ... 0
1 1061127 0 0 0 0 0 0 0 0