Datawhale-学术前沿趋势分析-Task02
任务说明
任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;
任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;
任务成果:学习 Pandas 的字符串操作;
具体代码实现
数据读取
import setuptools
import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests
import json
import pandas as pd
import matplotlib.pyplot as plt
def readArxivFile(path, columns = ['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
'report-no', 'categories', 'license', 'abstract', 'versions', 'update_date', 'authors_parsed'],count = None):
data = []
with open(path, 'r')as f:
for idx, line in enumerate(f):
if idx == count :</