【Python】GroupBy:数据聚合与分组运算

本文深入探讨了Python数据分析中的GroupBy技术,包括如何基于不同键进行分组,选择列进行聚合,使用函数和字典进行分组,以及根据索引级别分组。还介绍了数据聚合的操作,如多函数应用、无索引返回,以及分组级运算如apply方法。此外,详细阐述了分位数和桶分析的应用,透视表和交叉表的创建,为数据处理和分析提供了全面的指导。
摘要由CSDN通过智能技术生成

【博客地址】:https://blog.csdn.net/sunyaowu315
【博客大纲地址】:https://blog.csdn.net/sunyaowu315/article/details/82905347


python:GroupBy:数据聚合与分组运算

目录:

  • 对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),这是数据分析工作中的重要环节。在将数据集准备好之后,通常的任务就是计算分组统计或生成透视表。pandas提供了一个灵活的groupby功能,它能够以一种自然的方式对数据集进行切片、切块、摘要等操作。
  • 关系型数据库和SQL能够流行的原因之一就是能够方便地对数据进行连接、过滤、转换和聚合等。
  • python和pandas强大的能力,有助于执行更复杂的分组运算,如:
    • 根据一个或多个键(可以是函数、数组或DataFrame列名)拆分pandas对象
    • 计算分组摘要统计,如计数、平均值、标准差或用户自定义函数
    • 对DataFrame的列应用各种各样的函数
    • 应用组内转换或其他函数,如规格化、线性回归、排名或选取子集等
    • 计算透视表或交叉表等
    • 执行分位数分析以及其他分组分析

一 GroupBy技术

  • split-apply-combine(拆分-应用-合并),基本描述了groupby的整个过程。分组运算的第一个阶段,pandas对象中的数据会根据提供的键被拆分为多组,拆分操作是在对象的特定轴上执行的;然后将一个函数应用在各个分组并产生一个新值;最后,所有这些函数的执行结果会被合并到最终的结果对象中。
  • 分组键可以有多种形式,且类型不必相同:
    • 列表或数组,其长度与待分组的轴一样
    • 表示DataFrame某个列名的值
    • 字典或Series,给出待分组轴上的值与分组名之间的对应关系
    • 函数,用于处理轴索引或索引中的各个标签
  • 分组产生的变量grouped是一个GroupBy对象,实际上还没有进行任何计算,只是含有一些有关分组键的中间数据。换句话说,该对象已经有了接下来对各分组执行运算所需的一切信息。数据Series根据分组键进行了聚合,产生了一个新的Series
  • 如果通过两个键对数据进行分组,得到的Series具有一个层次化索引
  • 分组键可以为Series,也可以是任意长度的数组,还可以是列名
  • 分组过程中的“麻烦列”会在结果中被踢出。默认情况下,所有数值列都会被聚合,虽然有时可能会被过滤为一个子集。
  • 无论准备拿groupby干啥,都可能会用到groupby的size方法,它可以返回一个含有分组大小的Series
1 对分组进行迭代
  • GroupBy
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值