task1论文数据统计

最新推荐文章于 2023-12-13 14:03:21 发布

lb_rainbow

最新推荐文章于 2023-12-13 14:03:21 发布

阅读量166

点赞数

分类专栏： datawhale

本文链接：https://blog.csdn.net/lb_rainbow/article/details/112597890

版权

该篇博客介绍了如何使用Pandas对2019年计算机科学领域的arXiv论文进行数据统计，包括读取数据、理解和处理多类别信息，通过split函数和set操作找出所有独立的论文类别。

摘要由CSDN通过智能技术生成

任务1：论文数据统计
1.1 任务说明
任务主题：论文数量统计，即统计2019年全年计算机各个方向论文数量；
任务内容：赛题的理解、使用 Pandas 读取数据并进行统计；
任务成果：学习 Pandas 的基础操作；
可参考的学习资料：开源组织Datawhale joyful-pandas项目

数据集的格式如下：

id：arXiv ID，可用于访问论文；
submitter：论文提交者；
authors：论文作者；
title：论文标题；
comments：论文页数和图表等其他信息；
journal-ref：论文发表的期刊的信息；
doi：数字对象标识符，https://www.doi.org；
report-no：报告编号；
categories：论文在 arXiv 系统的所属类别或标签；
license：文章的许可证；
abstract：论文摘要；
versions：论文版本；
authors_parsed：作者的信息。

1.导入package并读取原始数据

导入所需的package

import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网络连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import matplotlib.pyplot as plt #画图工具

# 读入数据

data  = [] #初始化
#使用with语句优势：1.自动关闭文件句柄；2.自动显示（处理）文件读取数据异常
with open("arxiv-metadata-oai-snapshot.json", 'r') as f: 
    for line in f: 
        data.append(json.loads(line))
        
data = pd.DataFrame(data) #将list变为dataframe格式，方便使用pandas进行分析
data.shape #显示数据大小
</