【大数据处理与可视化】五、数据聚合与分组运算
实验目的
- 能够熟练运用groupby()方法对数据进行分组。
- 能够熟练运用统计方法和聚合操作对数据进行聚合,及其它常用的分组级运算方法。
- 能够通过借助网络资源,通过自主学习解决分组聚合中遇到的问题。
实验内容
运动员信息的分组与聚合:根据给定的运动员信息表,将统计的运动员基本信息进行归类,筛选出所有篮球运动员的基本信息,以统计篮球运动员的以下几个测试指标:
(1)统计篮球运动员的平均年龄、身高、体重。
(2)统计男篮运动员的年龄、身高、体重的极差值。
(3)统计篮球运动员的体质指数。
实验步骤
一、案例——运动员信息的分组与聚合
1、统计男篮、女篮运动员的平均年龄、身高、体重
代码:
data_group=df.groupby('项目')
df_basketball = dict([x for x in data_group])['篮球']
df_basketball
groupby_sex= df_basketball.groupby('性别')
groupby_sex.mean()
截图:
2、统计男篮运动员的平均年龄、身高、体重的极差值
代码:
basketball_male.agg({
'年龄(岁)':range_data_group,
'身高(cm)':range_data_group,
'体重(kg)':range_data_group,
})
截图:
3、统计男篮运动员的体质指数
代码:
def outer(num):
def ath_bmi(sum_bmi):
weight=df_basketball['体重(kg)']
height=df_basketball['身高(cm)']
sum_bmi = weight / (height/100)**2
return num+sum_bmi
return ath_bmi
all_bmi = df_basketball['体质指数']
df_basketball['体质指数'] = df_basketball[['体质指数']].apply(outer(all_bmi))
df_basketball
截图:
实验小结
通过本次实验,我能熟练运用groupby()方法对数据进行分组,能够熟练运用统计方法和聚合操作对数据进行聚合,及其它常用的分组级运算方法。在实验过程中遇到了很多硬件或者是软件上的问题,请教老师,询问同学,上网查资料,都是解决这些问题的途径。最终将遇到的问题一一解决最终完成实验。
注意事项:
1、有疑问前,知识学习前,先用搜索。
2、熟读写基础知识,学得会不如学得牢。
3、选择交流平台,如QQ群,网站论坛等。
4、尽我能力帮助他人,在帮助他人的同时你会深刻巩固知识。