利用python进行数据分析(第十章)

本文详细介绍了如何使用Python进行数据聚合与分组操作,包括GroupBy机制、数据聚合、数据透视表与交叉表的应用。通过实例展示了分组键的多种形式,如值列表、列名、函数等,并探讨了数据聚合的内置方法如mean、sum、min等。此外,还讨论了自定义聚合函数、应用通用拆分-应用-联合策略、分位数分析、填充缺失值以及分组加权平均等高级操作。
摘要由CSDN通过智能技术生成

数据聚合与分组操作

GroupBy机制

  • 分组键形式
  1. 与需要分组的轴向长度一致的值列表或者值数组
  2. DataFrame的列名的值
  3. 可以将分组轴上的值和分组名称相匹配的字典或series
  4. 可以在轴索引或索引中的单个标签上调用的函数
  • 计算分组的均值 GroupBy的 mean方法
  • size方法 返回一个包含组大小信息的series
  • 遍历各分组
  1. for循环
  2. dict(list(df.groupby('key')))
  • 选择一列或所有列的子集
  1. df.groupby('key')['data']
  2. df.groupby(['key1','key2'])['data']
  • 使用字典和series分组
  1. 构造字典来标识各列的分组对应关系,并传给groupby的数组
  2. Series可视为固定大小的映射
  • 使用函数分组
  1. 使用python函数定义分组关系
  2. 作为分组键的函数将会按照每个索引值调用一次,挺尸返回值会被用作分组名称
  • 根据索引层级分组
  1. 分层索引数据集,能够在轴索引的某个层级上进行聚合
  2. 根据层级分组,将层级数值或层级名称传递给level关键字

数据聚合

  1. 聚合是指所有根据数组产生标量值的数据转换过程
  2. 内置groupby方法:count mean sum min等
  3. 自定义聚合函数,需要将函数传递给aggregat
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值