数据聚合与分组操作
GroupBy机制
- 分组键形式
- 与需要分组的轴向长度一致的值列表或者值数组
- DataFrame的列名的值
- 可以将分组轴上的值和分组名称相匹配的字典或series
- 可以在轴索引或索引中的单个标签上调用的函数
- 计算分组的均值 GroupBy的 mean方法
- size方法 返回一个包含组大小信息的series
- 遍历各分组
- for循环
- dict(list(df.groupby('key')))
- 选择一列或所有列的子集
- df.groupby('key')['data']
- df.groupby(['key1','key2'])['data']
- 使用字典和series分组
- 构造字典来标识各列的分组对应关系,并传给groupby的数组
- Series可视为固定大小的映射
- 使用函数分组
- 使用python函数定义分组关系
- 作为分组键的函数将会按照每个索引值调用一次,挺尸返回值会被用作分组名称
- 根据索引层级分组
- 分层索引数据集,能够在轴索引的某个层级上进行聚合
- 根据层级分组,将层级数值或层级名称传递给level关键字
数据聚合
- 聚合是指所有根据数组产生标量值的数据转换过程
- 内置groupby方法:count mean sum min等
- 自定义聚合函数,需要将函数传递给aggregat