任务三----(分组)练习题-----pandas学习

这篇博客主要介绍了Pandas库在数据分组操作中的应用,包括理论与实战练习。理论部分讲解了SAC过程、groupby机制、分组操作(聚合、过滤和变换)及apply函数的用法。实战练习部分涉及钻石数据集和非法药物数据集,通过一系列问题(如价格极差、颜色分布、价格序列长度、回归系数计算等)深入探讨了分组操作的实际应用。
摘要由CSDN通过智能技术生成

理论部分

  • 理解SAC过程和groupby机制
  • 掌握分组三大操作:聚合、过滤和变换
  • 熟悉 apply 函数用法

练习部分

  • 钻石数据集分析
  • 非法药物数据集分析

习题讲解

【练习一】: 现有一份关于diamonds的数据集,列分别记录了克拉数、颜色、开采深度、价格,请解决下列问题:描述如下
在这里插入图片描述
(a) 在所有重量超过1克拉的钻石中,价格的极差是多少?

df = pd.read_csv('data/Diamonds.csv')
df.head()
df_r = df.query('carat>1')['price']
df_r.max()-df_r.min()

在这里插入图片描述
(b) 若以开采深度的0.2\0.4\0.6\0.8分位数为分组依据,每一组中钻石颜色最多的是哪一种?该种颜色是组内平均而言单位重量最贵的吗?

bins = df['depth'].quantile(np.linspace(0,1,6)).tolist()
cuts = pd.cut(df['depth'],bins=bins) #可选label添加自定义标签
df['cuts'] = cuts
df.head()

在这里插入图片描述

color_result = df.groupby('cuts')['color'].describe()
color_result

在这里插入图片描述

df['均重价格']=df['price']/df['carat']
color_result['top'] == [i[1] for i in df.groupby(['cuts
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值