DW-- 学术前言趋势分析(二)

本文利用arXiv公开的17万篇论文数据集,通过Python进行数据分析,旨在揭示最近学术发展趋势和关键词。主要进行了作者姓名频率、姓氏频率及首字母频率的统计和可视化。
摘要由CSDN通过智能技术生成

一、背景目的
arXiv 重要的学术公开⽹站,也是搜索、浏览和下载学术论⽂的重要⼯具。arXiv论⽂涵盖的范围⾮常 ⼴,涉及物理学的庞⼤分⽀和计算机科学的众多⼦学科,如数学、统计学、电⽓⼯程、定量⽣物学和经济学等等。

目的:将使⽤arXiv在公开的17万篇论⽂数据集,通过数据分析能够挖掘出最近学术的发展趋势和学术关键词。

使用工具:python

主题:
(1)统计所有作者姓名出现频率的Top10;
(2)统计所有作者姓(姓名最后的一个单词)的出现频率的Top10;
(3)统计所有作者姓第一个字符的频率;

二、数据处理
2.1 导入使用包

# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式,匹配字符串的模式
import requests #用于网络连接,发送网络请求,使用域名获取对应信息
import json #读取数据,我们的数据为json格式的
import pandas as pd #数据处理,数据分析
import matplotlib.pyplot as plt #画图工具

2.2 数据导入

# 读入数据

data  = [] #初始化
#使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常
with open("arxiv-metadata-oai-2019.json", 'r') as f: 
    for line in f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值