【python】(10)理解Python中的数据聚合和分组运算


在Python中,数据聚合和分组运算是数据分析中非常重要的操作。Pandas库提供了强大的功能来进行数据聚合和分组运算,使得对数据进行统计分析变得更加高效和便捷。
数据聚合和分组运算一般结合使用,主要可分为3个步骤:
1)分组:
将数据按照某一列或多列的数值进行分组,形成一个分组对象。
2)应用函数:
对每个分组应用相应的聚合函数(如sum、mean、count等)进行计算,生成聚合结果。
3)合并结果:
将各个分组计算得到的结果合并成最终的数据结构。

一.区别和联系

1.1数据聚合

数据聚合是对数据集进行汇总统计,通常使用聚合函数(如sum、mean、count等)对数据进行计算,生成汇总结果。在Python中,pandas库提供了丰富的数据聚合功能,可以实现数据的聚合。

1.2 分组运算

分组运算是将数据集按照指定列或条件进行分组,然后对每个分组应用相同的操作,如聚合、转换或过滤。在Python中,pandas库提供了强大的GroupBy功能,可以实现数据的分组运算。

1.3 分组运算和数据聚合可以结合使用

在Python中,pandas库提供了groupby方法和agg函数来实现分组聚合操作。其原理是先按照指定的列进行分组,然后对每个分组应用聚合函数,得到最终的汇总结果。

1.3.1 代码示例
aggregated_data = df.groupby('grouping_column')['aggregating_column'].agg(aggregation_function)

其中:

  • df 是包含数据的DataFrame对象。
  • ‘grouping_column’ 是用于分组的列名。
  • ‘aggregating_column’ 是需要进行聚合操作的列名。
  • aggregation_function 是聚合函数,可以是内置的函数(如sum、mean、count等),也可以是自定义的函数。
1.3.2 常用场景

分组聚合操作在数据分析和处理中有许多应用场景,例如:

  • 统计分析: 对数据按照某一列进行分组,并对每个分组进行统计求和、平均值、计数等操作,以便进行数据分析和可视化。
  • 报表生成: 对数据进行分组聚合以生成报表,包括总结性统计报告、财务报表等。
  • 数据清洗: 对重复数据进行去重,或者将数据按照特定规则进行合并和处理。
  • 时间序列分析: 对时间序列数据进行分组聚合,例如按月份或季度对数据进行聚合统计。

二.groupby()函数详解

2.1 groupby()语法
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, group_keys=True, squeeze=False,  observed=False, **kwargs)

2.2 分组键by

groupby分组运算中的分组键by的设置:

  • 最常用的是填写DataFrame的某个列名
  • 特殊地,还可以是自定义的数组、列表、字典、Series、函数,只要其与被分组的DataFrame的行数一致;
2.3 分组轴axis

默认axis=0按行分组,可指定axis=1对列分组。

2.4 groupby对象的特性
2.4.1不仅可以使用1个分组键创建1个groupby对象,也可以使用多个分组键(比如2个分组键)创建1个groupby对象

在这里插入图片描述

2.4.2 groupby对象支持迭代操作

可以对groupby对象进行迭代,会产生1个由分组变量名和数据块组成的二元元组:**
在这里插入图片描述

2.4.3 可以将groupby结果转换为list

在这里插入图片描述

2.4.4 可以将groupby结果转换为dict

在这里插入图片描述

2.4.5 通过函数进行分组

对于一些复杂的需求,我们可以直接对groupby函数传递函数名来进行分组。
比如下面这个代码示例,定义了一个自定义的分组函数custom_grouping_function,根据数值的奇偶性将数据分为两组。然后使用.groupby()函数和自定义函数进行分组,最后打印出每个分组的内容。
在这里插入图片描述

2.4.5 通过字典进行分组

在下面这个代码示例中,分组键是映射字典mapper,其中映射字典mapper的key键表示原始数据中的值,value值表示分组后的分组名。然后根据这个字典进行groupby操作,将数据按照字典中的映射关系分组:
在这里插入图片描述
在这里插入图片描述

2.5 groupby对象的常用方法
2.5.1 agg()方法

作用:调用聚合函数对分组后的数据进行聚合操作,可以一次性应用多个聚合函数。
在这里插入图片描述

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

img

img

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)

008edf79.png)

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)

  • 9
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值