数据分析Task1--论文数据统计

本文利用Pandas对2019年计算机各子领域论文数量进行统计,数据来源于Kaggle的arXiv。通过数据预处理,发现共有172种独立论文种类,最多的是Astrophysics。接着筛选出2019年后的计算机领域论文,分析发现Computer Vision and Pattern Recognition类别的论文数量最多且持续增长。
摘要由CSDN通过智能技术生成

任务:使用 Pandas 读取数据并统计论文数量,即统计2019年全年计算机各个方向论文数量;

数据集来源:https://www.kaggle.com/Cornell-University/arxiv

数据集格式:

id:arXiv ID,可用于访问论文;

submitter:论文提交者;

authors:论文作者;

title:论文标题;

comments:论文页数和图表等其他信息;

journal-ref:论文发表的期刊的信息;

doi:数字对象标识符,https://www.doi.org

report-no:报告编号;

categories:论文在 arXiv 系统的所属类别或标签;

license:文章的许可证;

abstract:论文摘要;

versions:论文版本;

authors_parsed:作者的信息。

 

代码实现:

导入package并读取原始数据

# 导入所需的package

import seaborn as sns #用于画图

from bs4 import BeautifulSoup #用于爬取arxiv的数据

import re #用于正则表达式,匹配字符串的模式

import requests #用于网络连接,发送网络请求,使用域名获取对应信息

import json #读取数据,我们的数据为json格式的

import pandas as pd #数据处理,数据分析

import matplotlib.pyplot as plt #画图工具

使用的package的版本如下(python 3.7.4):

seaborn:0.9.0

BeautifulSoup:4.8.0

requests:2.22.0

json:0.8.5

pandas:0.25.1

matplotlib:3.1.1

# 读入数据

data  = [] #初始化

#使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常

with open("I:/数据分析/arxiv-metadata-oai-201
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值