任务三----（分组）练习题-----pandas学习

最新推荐文章于 2021-01-14 08:20:52 发布

christineNAN

最新推荐文章于 2021-01-14 08:20:52 发布

阅读量920

点赞数

分类专栏： python学习笔记文章标签： python 数据分析

本文链接：https://blog.csdn.net/christineNAN/article/details/105820008

版权

这篇博客主要介绍了Pandas库在数据分组操作中的应用，包括理论与实战练习。理论部分讲解了SAC过程、groupby机制、分组操作（聚合、过滤和变换）及apply函数的用法。实战练习部分涉及钻石数据集和非法药物数据集，通过一系列问题（如价格极差、颜色分布、价格序列长度、回归系数计算等）深入探讨了分组操作的实际应用。

摘要由CSDN通过智能技术生成

理论部分

理解SAC过程和groupby机制
掌握分组三大操作：聚合、过滤和变换
熟悉 apply 函数用法

练习部分

钻石数据集分析
非法药物数据集分析

习题讲解

【练习一】：现有一份关于diamonds的数据集，列分别记录了克拉数、颜色、开采深度、价格，请解决下列问题：描述如下
在这里插入图片描述
(a) 在所有重量超过1克拉的钻石中，价格的极差是多少？

df = pd.read_csv('data/Diamonds.csv')
df.head()
df_r = df.query('carat>1')['price']
df_r.max()-df_r.min()

在这里插入图片描述
(b) 若以开采深度的0.2\0.4\0.6\0.8分位数为分组依据，每一组中钻石颜色最多的是哪一种？该种颜色是组内平均而言单位重量最贵的吗？

bins = df['depth'].quantile(np.linspace(0,1,6)).tolist()
cuts = pd.cut(df['depth'],bins=bins) #可选label添加自定义标签
df['cuts'] = cuts
df.head()

在这里插入图片描述

color_result = df.groupby('cuts')['color'].describe()
color_result

在这里插入图片描述

df['均重价格']=df['price']/df['carat']
color_result['top'] == [i[1] for i in df.groupby(['cuts

最低0.47元/天解锁文章

christineNAN

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录