任务说明:
任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;
任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;
任务成果:学习 Pandas 的字符串操作
# packages is all you need
import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests
import json
import pandas as pd
import matplotlib.pyplot as plt
数据加载
data = []
with open('./arxiv-metadata-oai-2019.json','r') as f:
for idx, line in enumerate(f):
d = json.loads(line)
d = {
'authors':d['authors'], 'categories':d['categories'], 'authors_parsed':<