【python】(10)理解Python中的数据聚合和分组运算

本文详细介绍了Python中数据聚合和分组运算的基础概念、Pandas库中的groupby函数、agg()和apply()函数的用法,以及它们在数据分析中的应用场景和常见操作。
摘要由CSDN通过智能技术生成

系列文章回顾
【python】(01)初识装饰器Decorator
【python】(02)初识迭代器Iterator
【python】(03)初识生成器Generator
【python】(04)python中实现多任务并发和并行的区别
【python】(05)如何使用python中的logging模块记录日志信息
【python】(06)理解Python中的 lambda 、map、filter、reduce 函数
【python】(07)理解Python中函数的参数类型
【python】(08)理解Python中的可变对象和不可变对象
【python】(09)理解Python中的zip()和zip(*iterable)
【python】(10)理解Python中的数据聚合和分组运算


在Python中,数据聚合和分组运算是数据分析中非常重要的操作。Pandas库提供了强大的功能来进行数据聚合和分组运算,使得对数据进行统计分析变得更加高效和便捷。
数据聚合和分组运算一般结合使用,主要可分为3个步骤:
1)分组:
将数据按照某一列或多列的数值进行分组,形成一个分组对象。
2)应用函数:
对每个分组应用相应的聚合函数(如sum、mean、count等)进行计算,生成聚合结果。
3)合并结果:
将各个分组计算得到的结果合并成最终的数据结构。

一.区别和联系

1.1数据聚合

数据聚合是对数据集进行汇总统计,通常使用聚合函数(如sum、mean、count等)对数据进行计算,生成汇总结果。在Python中,pandas库提供了丰富的数据聚合功能,可以实现数据的聚合。

1.2 分组运算

分组运算是将数据集按照指定列或条件进行分组,然后对每个分组应用相同的操作,如聚合、转换或过滤。在Python中,pandas库提供了强大的GroupBy功能,可以实现数据的分组运算。

1.3 分组运算和数据聚合可以结合使用

在Python中,pandas库提供了groupby方法和agg函数来实现分组聚合操作。其原理是先按照指定的列进行分组,然后对每个分组应用聚合函数,得到最终的汇总结果。

1.3.1 代码示例
aggregated_data = df.groupby('grouping_column')['aggregating_column'].agg(aggregation_function)

其中:

  • df 是包含数据的DataFrame对象。
  • ‘grouping_column’ 是用于分组的列名。
  • ‘aggregating_column’ 是需要进行聚合操作的列名。
  • aggregation_function 是聚合函数,可以是内置的函数(如sum、mean、count等),也可以是自定义的函数。
1.3.2 常用场景

分组聚合操作在数据分析和处理中有许多应用场景,例如:

  • 统计分析: 对数据按照某一列进行分组,并对每个分组进行统计求和、平均值、计数等操作,以便进行数据分析和可视化。
  • 报表生成: 对数据进行分组聚合以生成报表,包括总结性统计报告、财务报表等。
  • 数据清洗: 对重复数据进行去重,或者将数据按照特定规则进行合并和处理。
  • 时间序列分析: 对时间序列数据进行分组聚合,例如按月份或季度对数据进行聚合统计。

二.groupby()函数详解

2.1 groupby()语法

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, group_keys=True, squeeze=False,  observed=False, **kwargs)

2.2 分组键by

groupby分组运算中的分组键by的设置:

  • 最常用的是填写DataFrame的某个列名
  • 特殊地,还可以是自定义的数组、列表、字典、Series、函数,只要其与被分组的DataFrame的行数一致;

2.3 分组轴axis

默认axis=0按行分组,可指定axis=1对列分组。

2.4 groupby对象的特性

2.4.1不仅可以使用1个分组键创建1个groupby对象,也可以使用多个分组键(比如2个分组键)创建1个groupby对象

在这里插入图片描述

2.4.2 groupby对象支持迭代操作

可以对groupby对象进行迭代,会产生1个由分组变量名和数据块组成的二元元组:**
在这里插入图片描述

2.4.3 可以将groupby结果转换为list

在这里插入图片描述

2.4.4 可以将groupby结果转换为dict

在这里插入图片描述

2.4.5 通过函数进行分组

对于一些复杂的需求,我们可以直接对groupby函数传递函数名来进行分组。
比如下面这个代码示例,定义了一个自定义的分组函数custom_grouping_function,根据数值的奇偶性将数据分为两组。然后使用.groupby()函数和自定义函数进行分组,最后打印出每个分组的内容。
在这里插入图片描述

2.4.5 通过字典进行分组

在下面这个代码示例中,分组键是映射字典mapper,其中映射字典mapper的key键表示原始数据中的值,value值表示分组后的分组名。然后根据这个字典进行groupby操作,将数据按照字典中的映射关系分组:
在这里插入图片描述
在这里插入图片描述

2.5 groupby对象的常用方法

2.5.1 agg()方法

作用:调用聚合函数对分组后的数据进行聚合操作,可以一次性应用多个聚合函数。
在这里插入图片描述

2.5.2 apply()方法

作用:将自定义的函数应用到分组后的数据上,可以实现更灵活的操作。

2.5.3 transform()方法

作用:将函数应用于每个分组,然后将结果放回原始数据的对应位置,通常用于执行组内的变换操作。

在下面的代码示例中,首先创建了一个包含学生姓名和分数的 DataFrame。然后,我们使用 groupby 方法按照学生姓名分组,并定义了一个计算分数与平均分差值的函数 calculate_score_diff。最后,我们通过 transform() 方法将这个函数应用于每个分组,并将计算出的差值添加到原始数据中,得到每个学生分数与平均分的差值。
在这里插入图片描述

2.5.4 filter()方法

作用:根据自定义的条件筛选分组后的数据,保留满足条件的分组。
在这里插入图片描述

2.5.5 get_group(name)方法

作用:获取指定分组的数据。
在这里插入图片描述

2.5.6 groups方法

作用:返回一个字典,其中包含分组键和对应的分组数据的索引。
在这里插入图片描述

2.5.7 size方法

作用:返回每个分组的大小。
在这里插入图片描述

2.5.8 first和last方法

作用:返回每个分组的第一个或最后一个元素。
在这里插入图片描述

三agg()和apply()函数详解

agg()函数更适合执行多个列的聚合操作并且可以为每个列指定不同的聚合函数,而apply()函数更适合进行灵活的自定义数据处理,可以基于行或列应用各种函数。

3.1 agg()函数

1)用于对DataFrame或Series执行多个聚合操作,可以为每个列指定不同的聚合函数。
2)通常用于一次性对多个列进行不同的聚合操作,例如计算各列的总和、平均值等。
3)可以传递字典参数,指定每列所需的聚合函数。

3.2 apply()函数

1)用于在DataFrame或Series上应用自定义函数或内置函数,实现更灵活的数据处理。
2)通常用于对数据进行自定义的聚合、变换或处理操作,可以基于行或列进行操作。
3)可以传递自定义函数、lambda函数或内置函数作为参数。

  • 44
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值