一、背景目的
arXiv 重要的学术公开⽹站,也是搜索、浏览和下载学术论⽂的重要⼯具。arXiv论⽂涵盖的范围⾮常 ⼴,涉及物理学的庞⼤分⽀和计算机科学的众多⼦学科,如数学、统计学、电⽓⼯程、定量⽣物学和经济学等等。
目的:将使⽤arXiv在公开的17万篇论⽂数据集,通过数据分析能够挖掘出最近学术的发展趋势和学术关键词。
使用工具:python
主题:
(1)统计所有作者姓名出现频率的Top10;
(2)统计所有作者姓(姓名最后的一个单词)的出现频率的Top10;
(3)统计所有作者姓第一个字符的频率;
二、数据处理
2.1 导入使用包
# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式,匹配字符串的模式
import requests #用于网络连接,发送网络请求,使用域名获取对应信息
import json #读取数据,我们的数据为json格式的
import pandas as pd #数据处理,数据分析
import matplotlib.pyplot as plt #画图工具
2.2 数据导入
# 读入数据
data = [] #初始化
#使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常
with open("arxiv-metadata-oai-2019.json", 'r') as f:
for line in f