- SAC:分组操作中的split-apply-combine。split指基于某一些规则,将数据拆成若干组,apply是指对每一组独立地使用函数,combine指将每一组的结果组合成某一类数据结构。
- apply包含:
整合(Aggregation),分组计算统计量(如求均值、求每组元素个数)
变换(Transformation),分组对每个单元的数据进行操作(如元素标准化)
过滤(Filtration),按照某些规则筛选出一些组(如选出组内某一指标小于50的组) - groupby分组:
对分组对象使用head函数,返回的是每个组的前几行,而不是数据集前几行
first显示的是以分组为索引的每组的第一个分组信息 - 聚合(Aggregation)
聚合函数:mean/sum/size/count/std/var/sem/describe/first/last/nth/min/max
组内极差:grouped_single['Math'].agg(lambda x:x.max()-x.min())
NamedAgg函数:多个聚合,不支持lambda函数,但是可以使用外置的def函数。
如果需要使用多个函数,并且其中至少有一个带参数,则使用wrap技巧。 - filter函数:筛选某些组,结果是组的全体,传入的值是布尔标量。
- transform函数:传入的对象是组内的列,返回值列长完全一致。如果返回了标量值,那么组内的所有元素会被广播为这个值。
Pandas学习笔记3 分组——Datawhale组队学习
最新推荐文章于 2022-08-17 17:42:10 发布