数据聚合与分组运算

砸锅卖铁学习

于 2022-05-17 19:19:14 发布

阅读量401

点赞数

文章标签： python

本文链接：https://blog.csdn.net/m0_65364898/article/details/124827701

版权

一、分组与聚合的原理

分组：使用特定的条件将原数据划分为多个组

聚合：对每个分组中的数据执行某些操作（如聚合、转换等），最后将计算的结果进行整合

分组和聚合的步骤分为三步：

拆分：将数据集按照一些标准拆分为若干个组

应用：将某个函数或方法应用到每个分组

合并：将产生的新值整合到结果对象中

二、groupby()方法

1.拆分

groupby(by=None, axis=0, level=None, as_index=True,
ort=True,group_keys=True, squeeze=False, observed=False, **kwargs)

1.by=None:用于确定分组的依据
2.axis:表示分组的轴的方向，可以为0或1，默认为0
3.level:如果某个轴是一个MultiIndex对象，则会按照特定级别或多个级别分组
4.as_index:表示聚合后的数据是否以组标签作为索引的DataFrame对象输出，接受布尔值，默认为True
5.sort：表示是否对分组标签进行排序，接受布尔值，默认为True

by参数接收的数据，也就是常见的分组方式有以下四种：

1.列表或数组，其长度必须与待分组的轴一样

2.DataFrame对象中某列的名称

3.字典或者series对象，给出待分组轴上的值与分组名称之间的对应关系

4.函数，用于处理轴索引或索引中的各个标签

2.返回对象

groupby()方法会返回一个GroupBy对象，该对象实际上并没有进行任何计算，只是包含一些关于分组键的中间数据而已。

使用Series调用groupby()方法返回的是SeriesGroupBy对象。

使用DataFrame调用groupby()方法返回的是DataFrameBy对象。

3.查看分组对象

如果要查看每个分组的具体内容，则可以使用循环遍历对象

group_obj=df1.groupby(se)
for i in group_obj:
   print(i)

三、按照Series对象进行分组

1.当长度不一致时

四、使用内置统计方法聚合数据

前面介绍过的Pandas统计方法，比如用于获取最大值和最小值的max()和mix()，这些方法常用于简单地聚合分组中的数据。

max()
min()
mean()
count()

# 按key1进行分组，求每个分组的平均值
df.groupby('key1').mean()

砸锅卖铁学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据聚合与分组运算

一、分组与聚合的原理分组：使用特定的条件将原数据划分为多个组聚合：对每个分组中的数据执行某些操作（如聚合、转换等），最后将计算的结果进行整合分组和聚合的步骤分为三步：拆分：将数据集按照一些标准拆分为若干个组应用：将某个函数或方法应用到每个分组合并：将产生的新值整合到结果对象中二、groupby()方法1.拆分groupby(by=None, axis=0, level=None, as_index=True,ort=True,group_keys=True, sq
复制链接

扫一扫