【Python】cora数据集的读取和处理

这篇博客介绍了Cora数据集的读取和处理方法。数据集包含2708篇科学论文,分为7个类别,每篇论文用1433维的词向量表示。内容包括论文的特征矩阵、标签的独热编码、邻接矩阵的构建等。通过Python的pandas库,可以方便地读取和处理这些数据,为图卷积网络等任务做准备。
摘要由CSDN通过智能技术生成

cora数据集的读取和处理

参考资料:《Cora数据集介绍+python读取》《图数据集之cora数据集介绍- 用pyton处理 - 可用于GCN任务》

  • Cora
    • Cora数据集包含2708个科学出版物,分为七个类别之一。引文网络由5429个链接组成。数据集中的每个出版物都用0/1值的词向量描述,该词向量指示字典中是否存在相应的词。该词典包含1433个独特的单词。数据集中的README文件提供了更多详细信息。
    • Download Link:
    • Cora数据集由机器学习论文组成。这些论文分为以下七个类别之一:
      • Case_Based
      • Genetic_Algorithms
      • Neural_Networks
      • Probabilistic_Methods
      • Reinforcement_Learning
      • Rule_Learning
      • Theory

1、导包并读入cora

import numpy as np
import pandas as pd

#读入.content文件
cora_content = pd.read_csv('./data/cora/cora.content',sep='\t',header=None)
#查看数据集初始格式
print(cora_content.shape)
print(cora_content.head(3))
(2708, 1435)
      0     1     2     3     4     5     6     7     8     9     ...  1425  \
0    31336     0     0     0     0     0     0     0     0     0  ...     0   
1  1061127     0     0     0     0     0     0     0     0 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值