Pandas进阶肆分组

最新推荐文章于 2022-10-11 22:58:22 发布

嫌疑人Y的执事

最新推荐文章于 2022-10-11 22:58:22 发布

阅读量245

点赞数

本文链接：https://blog.csdn.net/qq_32844743/article/details/111713517

版权

Pandas进阶肆分组

pandas进阶系列根据datawhale远昊大佬的joyful pandas教程写一些自己的心得和补充，本文部分引用了原教程，并参考了《利用Python进行数据分析》、pandas官网

目前的进度是学习了整个课程并做了几个练一练，习题还没有做，练一练的思考过程在下文中有展示

一、分组模式及其对象

1. 分组的一般模式

分组操作在日常生活中使用极其广泛，例如：

依据 $\color{#FF0000}{性别}$ 分组，统计全国人口 $\color{#00FF00}{寿命}$ 的 $\color{#0000FF}{平均值}$
依据 $\color{#FF0000}{季节}$ 分组，对每一个季节的 $\color{#00FF00}{温度}$ 进行 $\color{#0000FF}{组内标准化}$
依据 $\color{#FF0000}{班级}$ 筛选出组内 $\color{#00FF00}{数学分数}$ 的 $\color{#0000FF}{平均值超过80分的班级}$

从上述的几个例子中不难看出，想要实现分组操作，必须明确三个要素： $\color{#FF0000}{分组依据}$ 、 $\color{#00FF00}{数据来源}$ 、 $\color{#0000FF}{操作及其返回结果}$ 。同时从充分性的角度来说，如果明确了这三方面，就能确定一个分组操作，从而分组代码的一般模式即：

df.groupby(分组依据)[数据来源].使用操作

例如第一个例子中的代码就应该如下：

df.groupby('Gender')['Longevity'].mean()

import numpy as np
import pandas as pd
df = pd.read_csv('../data/learn_pandas.csv')

2. 分组依据的本质

分组依据的本质是所依据的项的unique值

【练一练】

请根据上下四分位数分割，将体重分为high、normal、low三组，统计身高的均值。

【我的思路】

#先看下数据的分布
df.describe()

	Height	Weight	Test_Number
count	183.000000	189.000000	200.000000
mean	163.218033	55.015873	1.645000
std	8.608879	12.824294	0.722207
min	145.400000	34.000000	1.000000
25%	157.150000	46.000000	1.000000
50%	161.900000	51.000000	1.500000
75%	167.500000	65.000000	2.000000
max	193.900000	89.000000	3.000000

一开始的写法是查看describe的数据分布，然后手工取其中的分位数，实际工程肯定不能这么做，然后搜了下series.quantile是求分位数的实例方法，之前几章应该有学过，用的少还是不熟练得搜一下才知道，感谢这道题帮我强化记忆！

这里查了一下，groupby的分组依据可以是mapping, function, label, or list of labels</

最低0.47元/天解锁文章

嫌疑人Y的执事

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas进阶肆分组

Pandas进阶肆分组pandas进阶系列根据datawhale远昊大佬的joyful pandas教程写一些自己的心得和补充，本文部分引用了原教程，并参考了《利用Python进行数据分析》、pandas官网一、分组模式及其对象1. 分组的一般模式分组操作在日常生活中使用极其广泛，例如：依据性别\color{#FF0000}{性别}性别分组，统计全国人口寿命\color{#00FF00}{寿命}寿命的平均值\color{#0000FF}{平均值}平均值依据季节\color{#FF0000}{
复制链接

扫一扫