数据挖掘实战-前沿分析-Task02

最新推荐文章于 2024-06-20 00:30:00 发布

Lyndsey

最新推荐文章于 2024-06-20 00:30:00 发布

阅读量146

点赞数 2

分类专栏： # 数据挖掘实战

本文链接：https://blog.csdn.net/hahameier/article/details/112724890

版权

数据挖掘实战专栏收录该内容

6 篇文章 0 订阅

订阅专栏

该博客介绍了数据挖掘任务，主要内容包括读取论文数据，聚焦于作者信息。统计了作者姓名的Top10出现频率、姓氏的Top10频率以及姓的第一个字符的分布。此外，还展示了cs.CV领域作者的分布情况，并通过直方图呈现作者频率。

摘要由CSDN通过智能技术生成

本次的任务主要死后完成论文作者的统计，统计出所有论文作者出现频率Top10的姓名。

数据读取

本次任务只取出其中的三个字段进行处理。

import seaborn as sns
import re
import json
import pandas as pd
import matplotlib.pyplot as plt

data = []
with open('arxiv-metadata-oai-snapshot.json', 'r') as f:
    for idx, line in enumerate(f):
        d = json.loads(line)
        d = {'authors': d['authors'], 'categories': d['categories'], 'authors_parsed': d['authors_parsed']}
        data.append(d)

data = pd.DataFrame(data)
print(data)

在这里插入图片描述

数据统计

1、统计所有作者姓名出现频率的Top10
2、统计所有作者姓氏的出现频率的Top10
3、统计所有作者姓的第一个字符的频率

选出cs.CV的论文：

data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]
data2

在这里插入图片描述

拼接所有作者

all_authors = sum(data2['authors_parsed'], [])
all_authors

在这里插入图片描述
上面列表中，每个元素为一个作者的姓名。

拼接所有作者。

authors_names = [' '.join(x) for x in all_authors]
authors_names = pd.DataFrame(authors_names)

根据作者频率绘制直方图

plt.figure(figsize=(10,6))
authors_names[0].value_counts().head(10).plot(kind='barh')

姓名频率的统计。

plt.figure(figsize=(10,6))
authors_names[0].value_counts().head(10).plot(kind='barh')

names = authors_names[0].value_counts().index.values[:10]
print(names)
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')

统计姓名的姓氏。

authors_lastnames = [x[0] for x in all_authors]
authors_lastnames = pd.DataFrame(authors_lastnames)
authors_lastnames

plt.figure(figsize=(10, 6))
authors_lastnames[0].value_counts().head(10).plot(kind='barh')

names = authors_lastnames[0].value_counts().index.values[:10]
names = authors_names[0].value_counts().index.values[:10]
print(names)
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')