DW-- 学术前言趋势分析（二）

最新推荐文章于 2021-01-28 14:35:41 发布

Bela_F

最新推荐文章于 2021-01-28 14:35:41 发布

阅读量116

点赞数

分类专栏： DW 文章标签： python

本文链接：https://blog.csdn.net/weixin_42538869/article/details/112727259

版权

本文利用arXiv公开的17万篇论文数据集，通过Python进行数据分析，旨在揭示最近学术发展趋势和关键词。主要进行了作者姓名频率、姓氏频率及首字母频率的统计和可视化。

摘要由CSDN通过智能技术生成

一、背景目的
arXiv 重要的学术公开⽹站，也是搜索、浏览和下载学术论⽂的重要⼯具。arXiv论⽂涵盖的范围⾮常⼴，涉及物理学的庞⼤分⽀和计算机科学的众多⼦学科，如数学、统计学、电⽓⼯程、定量⽣物学和经济学等等。

目的：将使⽤arXiv在公开的17万篇论⽂数据集，通过数据分析能够挖掘出最近学术的发展趋势和学术关键词。

使用工具：python

主题：
（1）统计所有作者姓名出现频率的Top10；
（2）统计所有作者姓（姓名最后的一个单词）的出现频率的Top10；
（3）统计所有作者姓第一个字符的频率；

二、数据处理
2.1 导入使用包

# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网络连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import matplotlib.pyplot as plt #画图工具

2.2 数据导入

# 读入数据

data  = [] #初始化
#使用with语句优势：1.自动关闭文件句柄；2.自动显示（处理）文件读取数据异常
with open("arxiv-metadata-oai-2019.json", 'r') as f: 
    for line in f

最低0.47元/天解锁文章

Bela_F

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录