【Python数据分析与处理 实训03】 — 酒类消费信息分析(数据分组聚合 group().agg()应用)
探索酒类消费信息
对于下面的数据集进行简单的一些数据的分析训练
若需要源数据请私信~
1.将数据框命名为drinks
drinks = pd.read_csv("G:\Projects\pycharmeProject\大数据比赛\泰迪智能科技\data\drinks.csv")
print(drinks.head())
2.哪个大陆(continent)平均消耗的啤酒(beer)更多
avg = drinks.groupby(by='continent').agg({'beer_servings':'mean'})
print(avg)
print(avg.max)
print(avg.idxmax())
3.打印出每个大陆的红酒消耗(wine_servings)的描述性统计值
print(drinks.groupby('continent').agg({'wine_servings':'describe'})) # 方法一
print(drinks.groupby('continent')['wine_servings'].describe()) # 方法二
def_function = lambda x: sum(x) # 方法三
print(drinks.groupby('continent').agg({'wine_servings':['count','mean','std','min',def_function]}))
同样的这里使用聚合函数,方法二是在方法一的基础上先提取指定列再进行的描述性统计;方法三利用的lambda表达式构建了新的函数,来进行总和统计。
关于描述性统计可以参见本人博客:Python----数据分析-pandas.DataFrame基础
4.打印出每个大陆每种酒类别的消耗平均值
mean = drinks.groupby('continent').mean()
print(mean)
print(drinks.groupby('continent').agg('mean'))
5.打印出每个大陆每种酒类别的消耗中位数
median = drinks.groupby('continent').median()
print(median)
print(drinks.groupby('continent').agg('median'))
6.打印出每个大陆对spirit_servings饮品消耗的平均值、最大值、最小值
print(drinks.groupby('continent').agg({'spirit_servings':['mean','max','min']}))