第四章 分组

第四章 分组

学习参考:https://github.com/datawhalechina/joyful-pandas

Ex1:汽车数据集

现有一份汽车数据集,其中Brand, Disp., HP分别代表汽车品牌、发动机蓄量、发动机输出。

import numpy as np
import pandas as pd
df = pd.read_csv('../data/car.csv')
df.head(3)

在这里插入图片描述

  1. 先过滤出所属Country数超过2个的汽车,即若该汽车的Country在总体数据集中出现次数不超过2则剔除,再按Country分组计算价格均值、价格变异系数、该Country的汽车数量,其中变异系数的计算方法是标准差除以均值,并在结果中把变异系数重命名为CoV
  2. 按照表中位置的前三分之一、中间三分之一和后三分之一分组,统计Price的均值。
  3. 对类型Type分组,对PriceHP分别计算最大值和最小值,结果会产生多级索引,请用下划线把多级列索引合并为单层索引。
  4. 对类型Type分组,对HP进行组内的min-max归一化。
  5. 对类型Type分组,计算Disp.HP的相关系数。
#1. 过滤出所属Country数超过2个的汽车,再按Country分组计算价格均值、价格变异系数、该Country的汽车数量
df1 = df.groupby("Country").filter(lambda x:x.shape[0]>2)
df1.shape

在这里插入图片描述

df1.groupby('Country')['Price'].agg(['mean',('CoV',lambda x:x.std()/x.mean()),'count'])

在这里插入图片描述

#2.按照表中位置的前三分之一、中间三分之一和后三分之一分组,统计Price的均值
length = df.shape[0]  # 60
copy_num = int(length/3)
location = ["a"]*int(copy_num)+["b"]*int(copy_num)+["c"]*(length-2*copy_num)
df.groupby(location)['Price'].mean()

在这里插入图片描述

#3.对类型Type分组,对Price和HP分别计算最大值和最小值,结果会产生多级索引,请用下划线把多级列索引合并为单层索引。
df2 = df.groupby('Type').agg({'Price':['max'],'HP':['min']})
df2.columns = ['Price_max','HP_min']
df2

在这里插入图片描述

#答案做法:
df3 = df.groupby('Type').agg({'Price':['max'],'HP':['min']})
df3.columns = df3.columns.map(lambda x:'_'.join(x))
#4.对类型Type分组,对HP进行组内的min-max归一化。
df4 = df.groupby('Type')['HP'].transform(lambda x:(x-x.min())/(x.max()-x.min()))
df4.head()

在这里插入图片描述

#5.对类型Type分组,计算Disp.与HP的相关系数。
df5 = df.groupby('Type')[['Disp.','HP']].corr()
df5

在这里插入图片描述

#答案做法:
df6 = df.groupby('Type')[['Disp.','HP']].apply(lambda x: 
         np.corrcoef(x['HP'].values,x['Disp.'].values)[0,1])
df6  #结果得到的是Series对象

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值