Datawhale提供的pandas学习的开源地址:Joyful Pandas
分组
分组模式及其对象
分组的一般模式
分组操作在日常生活中使用极其广泛,例如:
• 依据 性别分组,统计全国人口 寿命的 平均值
• 依据 季节分组,对每一个季节的 温度进行 组内标准化
• 依据 班级分组,筛选出组内 数学分数的 平均值超过 80 分的班级
从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:
分组依据、数据来源、操作及其返回结果。同时从充分性的角度来说,如果明确了这三方面,就能确定一个分组操作,从而分组代码的一般模式即:
df.groupby(分组依据)[数据来源].使用操作
df.groupby('Gender')['Longevity'].mean()
现在返回到学生体测的数据集上,如果想要按照性别统计身高中位数,就可以如下写出:
分组依据的本质
前面所提都是单一维度进行分组的。对应多个维度分组,只需在 groupby 中传入相应列名构成的列表即可。例如,现想根据学校和性别进行分组,统计身高的均值就可以如下写出:
目前为止,groupby 的分组依据都是直接可以从列中按照名字获取的,那如果想要通过一定的复杂逻辑来分组,例如根据学生体重是否超过总体均值来分组,同样还是计算身高的均值。
首先应该先写出分组条件:
condition = df.Weight > df.Weight.mean()
从索引可以看出,其实最后产生的结果就是按照条件列表中元素的值(此处是 True 和 False )来分组,下面用随机传入字母序列来验证这一想法:
此处的索引就是原先 item 中的元素,如果传入多个序列进入 groupby ,那么最后分组的依据就是这两个序列对应行的唯一组合: