# 导⼊所需的packageimport seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式,匹配字符串的模式import requests #⽤于⽹络连接,发送⽹络请求,使⽤域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图⼯具
data =[]#初始化#使⽤用with语句句优势: 1.⾃自动关闭⽂文件句句柄; 2.⾃自动显示(处理理)⽂文件读取数据异常withopen("E:\\DW学习\\Python 学习代码\\arxiv-metadata-oai-2019.json",'r')as f:for idx, line inenumerate(f):
d = json.loads(line)
d ={
'title': d['title'],'categories': d['categories'],'abstract': d['abstract']}
data.append(d)#选择部分数据if idx >200000:break
data = pd.DataFrame(data)#将list变为dataframe格式,⽅方便便使⽤用pandas进⾏行行分析