熟用pandas的统计方式(2)

最新推荐文章于 2023-02-27 21:22:21 发布

Hi_World_Me

最新推荐文章于 2023-02-27 21:22:21 发布

阅读量234

点赞数

本文链接：https://blog.csdn.net/Hi_World_Me/article/details/112742477

版权

本文介绍如何利用Pandas进行论文作者的统计分析，包括统计作者姓名、姓氏及其出现频率的Top10，以及姓氏首字母的频次。通过实例展示数据加载和字符串操作，为高效的数据处理提供方法。

摘要由CSDN通过智能技术生成

任务说明：

任务主题：论文作者统计，统计所有论文作者出现评率Top10的姓名；

任务内容：论文作者的统计、使用 Pandas 读取数据并使用字符串操作；

任务成果：学习 Pandas 的字符串操作

# packages is all you need
import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests 
import json
import pandas as pd
import matplotlib.pyplot as plt

数据加载

data = []
with open('./arxiv-metadata-oai-2019.json','r') as f:
    for idx, line in enumerate(f):
        d = json.loads(line)
        d = {
   'authors':d['authors'], 'categories':d['categories'], 'authors_parsed':<