【DataWhale数据分析】Task2学习报告

最新推荐文章于 2025-08-01 15:52:43 发布

原创最新推荐文章于 2025-08-01 15:52:43 发布 · 234 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析 #可视化

DataWhale数据分析专栏收录该内容

6 篇文章

订阅专栏

本文介绍了如何利用DataWhale的团队学习数据挖掘项目，通过seaborn和BeautifulSoup4等工具，完成从数据预处理到绘制作者出现频率Top10的直方图过程。任务涉及筛选cs.CV领域论文、作者姓名提取与频率统计，展示了Python在数据科学中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

十分感谢DataWhale的开源分享！！！！

项目GitHub地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends

DataWhale数据分析|Task2

任务介绍：

任务要求：

论文作者统计，统计所有论文作者出现频率Top10的姓名

任务流程：

下载kaggle数据集【Task1已完成】
安装所需package：seaborn(数据可视化)，BeautifulSoup4（爬虫相关，用于爬取数据），requests（网络通信），json（json格式数据读取），pandas（大数据分析），matploblib（绘图）【Task1已完成】
数据预处理，提取出所需信息（感兴趣领域的文章以及相对应的作者名称等）
根据作者名称出现频率绘制直方图

任务详解

1. 数据预处理

1) 选择类别为cs.CV下面的论文

data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]

中间的data['categories'].apply(lambda x: 'cs.CV' in x)返回一个bool类型的dataframe列，表示data表中每一行的categories列是否包含‘cs.CV’，与表达式'cs.CV' in x的返回值相同。

apply介绍：

apply(func [, args [, kwargs ]]) 函数用于当函数参数已经存在于一个元组或字典中时，间接地调用函数。
args是一个包含将要提供给函数的按位置传递的参数的元组。如果省略了args，任何参数都不会被传递。
kwargs是一个包含关键字参数的字典。简单说apply()的返回值就是func()的返回值，apply()的元素参数是有序的，元素的顺序必须和func()形式参数的顺序一致

lambda介绍：

lambda是匿名函数，即不再使用def的形式，可以简化脚本，使结构不冗余

pandas DataFrame 的 applymap() 函数和pandas Series(列) 的 apply() 方法都是对整个对象上个各个值进行单独处理,返回一个新的对象.

pandas Series(列) 的 apply():
pandas series apply
pandas DataFrame 的 applymap():

在这里插入图片描述

而pandas DataFrame 的 apply() 函数,虽然也是作用于DataFrame的每个值,但是接受的参数不是各个值本身,而是DataFrame里各行(或列),返回一个新的行(列):
dataframe apply函数

2）拼接作者名称

all_authors = sum(data2['authors_parsed'], [])
# 拼接所有的作者
authors_names = [' '.join(x) for x in all_authors]
authors_names = pd.DataFrame(authors_names)

在本次任务中，data2['authors_parsed']返回的是每篇文章的所有作者的list，而每个作者的姓和名组成了一个list，因此是list的list，因此需要sum函数来去掉一层list，并通过join函数连接作者的姓名

sum(data2[‘authors_parsed’], [ ])中后面是[ ]的缘由：
语法 sum(iterable[, start])，start默认为0，表示起始值

当start为数字时：
sum((1, 2), 0) ，返回 0 + 1 + 2，OK
sum((1, 2), 3) ，返回 3 + 1 + 2，很完美
但当你希望[‘apple’]+[‘banana’] = [‘apple’,‘banana’]时，结果却是0+[‘apple’]+[‘banana’]
因此，[]便登场了
当start为list时：
sum((['apple'],['banana']), []) ，返回[ ]+[‘apple’]+[‘banana’]，完美

2. 绘制直方图

1）根据作者频率绘制直方图

# 根据作者频率绘制直方图
plt.figure(figsize=(10, 6))
authors_names[0].value_counts().head(10).plot(kind='barh')

# 修改图配置
names = authors_names[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')
plt.show()

value_counts函数：用于统计dataframe或series中不同数或字符串出现的次数
语法： Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)

参数名	作用
normalize	计数项归一化
sort	是否对频率项进行排序，默认降序
ascending	排序是否升续排列，默认False
bins	离散数据的分段，只能作用在数值变量，pd.cut 的简化版
dropna	不包括对NA的计数

** dataframe.plot()**
语法：DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None,figsize=None, use_index=True, title=None, grid=None, legend=True, style=None, logx=False, logy=False,loglog=False, xticks=None, yticks=None, xlim=None, ylim=None, rot=None, fontsize=None, colormap=None,table=False, yerr=None, xerr=None, secondary_y=False, sort_columns=False, **kwds)
由于参数太多，在这里就不一一贴出了，感兴趣可以参考这篇文章
kind参数介绍：

可选参数	作用
‘line’	(default)折线图
‘bar’	条形图
‘barh’	横向条形图
‘hist’	柱状图
‘box’	箱线图
‘pie’	饼图
‘kde’	Kernel 的密度估计图，主要对柱状图添加Kernel 概率密度线
‘density’	same as ‘kde’
‘scatter’	散点图
‘hexbin’	六边形容器图
‘area’	通过区域占比，用于展示定量数据

实验结果：

1）根据姓氏绘制统计直方图

authors_lastnames = [x[0] for x in all_authors]
authors_lastnames = pd.DataFrame(authors_lastnames)

plt.figure(figsize=(10, 6))
authors_lastnames[0].value_counts().head(10).plot(kind='barh')

names = authors_lastnames[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')
plt.show()