python数据分析3

本文介绍了Python数据分析中使用Pandas库进行分组和聚合计算的方法。内容包括如何按照年份计算数据集中的平均预期寿命,如何进行多变量分组并求特定年份地区的平均预期寿命和GDP,以及如何计算某个国家中不同大陆的数量。同时,文章提到了使用iloc而非loc避免获取数据时的错误,并提醒读者注意Python版本和编译器的选择。
摘要由CSDN通过智能技术生成

python数据分析pandas库


前言

为啥要用python中的pandas库进行数据分析,用excel不可以吗?不可以,excel处理上万条数据时通常会死机或者出错,python不会有这种问题。相信鲤鱼学长,在学习乃至日后工作中,pandas库将会风靡相当长一段时间。


提示:以下是本篇文章正文内容,下面案例可供参考

1.4分组和聚合计算

1.4.1分组方式

问题一,如何计算数据集中每年的平均预期寿命?
答:需要先从数据按年划分割,接着获取lifeExp列,最后计算平均值。代码如下:

import pandas as pd
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(df.groupby('year')['lifeExp'].mean())

结果如下:

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

问题二:如何使用多个变量对数据进行分组和分层?这里是按年和地区划分,如何求某年某地区的人口平均预期寿命以及GDP。代码如下:

multi_group_var=df.\
    groupby(['year','continent'])\
    [['lifeExp','gdpPercap']].\
    mean()
print(multi_group_var)

结果如下:

                  lifeExp     gdpPercap
year continent                         
1952 Africa     39.135500   1252.572466
     Americas   53.279840   4079.062552
     Asia       46.314394   5195.484004
     Europe     64.408500   5661.057435
     Oceania    69.255000  10298.085650
1957 Afr
  • 8
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值