python数据分析pandas库
前言
为啥要用python中的pandas库进行数据分析,用excel不可以吗?不可以,excel处理上万条数据时通常会死机或者出错,python不会有这种问题。相信鲤鱼学长,在学习乃至日后工作中,pandas库将会风靡相当长一段时间。
提示:以下是本篇文章正文内容,下面案例可供参考
1.4分组和聚合计算
1.4.1分组方式
问题一,如何计算数据集中每年的平均预期寿命?
答:需要先从数据按年划分割,接着获取lifeExp列,最后计算平均值。代码如下:
import pandas as pd
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(df.groupby('year')['lifeExp'].mean())
结果如下:
year
1952 49.057620
1957 51.507401
1962 53.609249
1967 55.678290
1972 57.647386
1977 59.570157
1982 61.533197
1987 63.212613
1992 64.160338
1997 65.014676
2002 65.694923
2007 67.007423
Name: lifeExp, dtype: float64
问题二:如何使用多个变量对数据进行分组和分层?这里是按年和地区划分,如何求某年某地区的人口平均预期寿命以及GDP。代码如下:
multi_group_var=df.\
groupby(['year','continent'])\
[['lifeExp','gdpPercap']].\
mean()
print(multi_group_var)
结果如下:
lifeExp gdpPercap
year continent
1952 Africa 39.135500 1252.572466
Americas 53.279840 4079.062552
Asia 46.314394 5195.484004
Europe 64.408500 5661.057435
Oceania 69.255000 10298.085650
1957 Afr