pandas分组计算平均值_数据分析Pandas运用 | DataFrame基础知识.(74)

上节介绍获取行、列子集的方法,运用了range函数和python的切片语法,在数据分析中,总是会进行统计计算,很多基本统计计算有现成的库可用,或内置在语言中。下面以data数据

a6445d82e7c56371ea5ceb1df086bd53.png

可以先问下面几个问题。

1.     数据中每年的平均预期寿命是多少?平均预期寿命、人口和GDP是多少?

2.     如果按洲对数据分层,并进行同样的计算,结果会怎样?

3.     每个洲列出了多少个国家和地区?

对于上面的问题,需要进行分组计算(即聚合)。换句话说,需要进行一个计算,可以是平均计算或者频率计算,并将其应用于变量的每个子集。可以把分组计算看作“分割-应用-组合”的过程,首先把数据分割成若干部分,然后把选择的函数(或计算)应用于各部分,最后把所有独立的分割计算组合成一个Data Frame。

6081e4f32577d56e4a72f554a014fbb5.png

拆解上面的语句,首先创建一个分组对象。

6cf8765713c680564db1acbb9b1c27d8.png

可以根据分组数据中选取需要计算的列,对它们进行计算。要回答上面的问题,需要获取lifeExp列。

78dba93cbe6c6895e0788c9ae59018c0.png

最后计算数字向量的平均值,就得到了最终的期望结果。

9e02d5bf4faad0317cce058f5f732978.png

可以对人口和GDP做一系列类似的计算,如果想使用多个变量对数据进行分组和分层,应该怎么办呢?想对多列执行相同的计算呢?

7629bf7bdcc41d54584a9f7a7dd2ae7e.png

上面输出的数据是按年份和洲进行分组,针对每个一个“年份-洲”对,计算平均预期寿命和平均GDP。输出的数据有点奇怪。如果想平铺Data Frame,使用reset_index方法

5816506a0df886c46ae8d18bf02c3231.png

4fc65438f1f1bee112a60b68b4193f2c.png

数据相关的另一个常见任务是计算频率。可使用numique方法或value_counts方法获取Pandas Series的唯一值计数或频率计数

03fa896d9e39f4b4723afb69832d5828.png

可视化在数据处理的每个步骤中都非常重要。在理解和清理数据时,可视化有助于识别数据中的趋势,并展示最终的发现,使用pandas创建一些基本图,下面人口各年底的预期寿命

104fb0233f510aa12f85411a8de48de1.png

Dara Frame基础知识就全部完了,即将入门下一个模块。

资料

链接:https://pan.baidu.com/s/18veIg3cFCDEooKbqRq4w_w

提取码:0010

数据分析Pandas运用 | DataFrame基础知识.(7-3)

数据分析Pandas运用 | DataFrame基础知识.(7-2)

数据分析Pandas运用 |  DataFrame基础知识.(7-1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值