【Python】GroupBy：数据聚合与分组运算

最新推荐文章于 2024-06-18 09:14:16 发布

CS正阳

最新推荐文章于 2024-06-18 09:14:16 发布

阅读量3.3k

点赞数 2

分类专栏：开发工具：Python 文章标签： python 数据分析

本文链接：https://blog.csdn.net/sunyaowu315/article/details/82774552

版权

本文深入探讨了Python数据分析中的GroupBy技术，包括如何基于不同键进行分组，选择列进行聚合，使用函数和字典进行分组，以及根据索引级别分组。还介绍了数据聚合的操作，如多函数应用、无索引返回，以及分组级运算如apply方法。此外，详细阐述了分位数和桶分析的应用，透视表和交叉表的创建，为数据处理和分析提供了全面的指导。

摘要由CSDN通过智能技术生成

【博客地址】：https://blog.csdn.net/sunyaowu315
【博客大纲地址】：https://blog.csdn.net/sunyaowu315/article/details/82905347

python：GroupBy：数据聚合与分组运算

目录：

文章目录

目录： @[toc]

一 GroupBy技术

1 对分组进行迭代

2 选取一个或一组列

3 通过字典或Series进行分组

4 通过函数进行分组

5 根据索引级别进行分组

二数据聚合

1 面向列的多函数应用

2 以“无索引”形式返回聚合数据

三分组级运算和转换

1 apply：一般性的“拆分-应用-合并”

2 分位数和桶分析

1）示例：用特定分组的值填充缺失值

2）示例：随机采样和排列

3）示例：分组加权平均数和相关系数

4）示例：面向分组的线性回归

四透视表和交叉表

1 透视表

2 交叉表

五 END

对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），这是数据分析工作中的重要环节。在将数据集准备好之后，通常的任务就是计算分组统计或生成透视表。pandas提供了一个灵活的groupby功能，它能够以一种自然的方式对数据集进行切片、切块、摘要等操作。
关系型数据库和SQL能够流行的原因之一就是能够方便地对数据进行连接、过滤、转换和聚合等。
python和pandas强大的能力，有助于执行更复杂的分组运算，如：
- 根据一个或多个键（可以是函数、数组或DataFrame列名）拆分pandas对象
- 计算分组摘要统计，如计数、平均值、标准差或用户自定义函数
- 对DataFrame的列应用各种各样的函数
- 应用组内转换或其他函数，如规格化、线性回归、排名或选取子集等
- 计算透视表或交叉表等
- 执行分位数分析以及其他分组分析

一 GroupBy技术

split-apply-combine（拆分-应用-合并），基本描述了groupby的整个过程。分组运算的第一个阶段，pandas对象中的数据会根据提供的键被拆分为多组，拆分操作是在对象的特定轴上执行的；然后将一个函数应用在各个分组并产生一个新值；最后，所有这些函数的执行结果会被合并到最终的结果对象中。
分组键可以有多种形式，且类型不必相同：
- 列表或数组，其长度与待分组的轴一样
- 表示DataFrame某个列名的值
- 字典或Series，给出待分组轴上的值与分组名之间的对应关系
- 函数，用于处理轴索引或索引中的各个标签
分组产生的变量grouped是一个GroupBy对象，实际上还没有进行任何计算，只是含有一些有关分组键的中间数据。换句话说，该对象已经有了接下来对各分组执行运算所需的一切信息。数据Series根据分组键进行了聚合，产生了一个新的Series
如果通过两个键对数据进行分组，得到的Series具有一个层次化索引
分组键可以为Series，也可以是任意长度的数组，还可以是列名
分组过程中的“麻烦列”会在结果中被踢出。默认情况下，所有数值列都会被聚合，虽然有时可能会被过滤为一个子集。
无论准备拿groupby干啥，都可能会用到groupby的size方法，它可以返回一个含有分组大小的Series