数据聚合与分组运算

一、分组与聚合的原理

Pandas中,分组是指使用特定的条件将原数据划分为多个组,聚合在这里指的是,对每个分组中的数据执行某些操作,最后将计算的结果进行整合。

分组与聚合的过程大概分以下三步

拆分

将数据集按照一些标准拆分为若干个组。

应用

将某个函数或方法(内置和自定义均可)应用到每个分组。

合并

将产生的新值整合到结果对象中。

二、通过groupby()方法将数据拆分成组

Pandas中,可以通过groupby()方法将数据集按照某些标准划分成若干个

groupby(by=None, axis=0, level=None, as_index=True, sort=True,group_keys=True, squeeze=False, observed=False, **kwargs)

 groupby()法会返回一个GroupBy对象,该对象实际上并没有进行任何计算,只是包含一些关于分组键的中间数据而已。

通过groupby()方法的by可以定按什么标准分组数可以接收的数据主要有以下4种:

1.列表或数组

2.dateframe某列

3. 字典或series对象

4.函数

三、按列名分组

DataFrame对象一列数符合划分成组的准,则可以将该列当做分组键来拆分数据集。

df.groupby(by='Key')

 如果要查看每个分组的具体内容,则可以使用for循环遍历DataFrameGroupBy对象。

group_obj = df.groupby('Key')

# 遍历分组对象

for i in group_obj:

              print(i)

 •Series对象进行分组

还可Series类对象作为分组键进行分组。

ser_obj = pd.Series(['a', 'b', 'c', 'a', 'b'])

# 按自定义Series对象进行分组

group_obj = df.groupby(by = ser_obj)

 如果Series象与Pandas对象的索引长度不相同时,则只会将具有相同索部分数据进行分组。

df = se = pd.Series(['a', 'a', 'b'])

group_obj = df.groupby(se)['one', 'two', 'one','two', 'one'],

                                  'data1': [2, 3, 4, 6, 8],

                                  'data2': [3, 5, 6, 3, 7]})

se = pd.Series(['a', 'a', 'b'])

group_obj = df.groupby(se)

四、按字典进行分组

 使用典对DataFrame进行分组时,则需要确定轴的方向及字典中的映射关系,即字典中的键为列名,字典的值为自定义的分组名。

mapping = {'a':'第一组','b':'第二组','c':'第一组','d':'第三组','e':'第二组'}

by_column = num_df.groupby(mapping, axis=1)

五、按函数进行分组

 数作为分组键会更加灵活,任何一个被当做分组键的函数都会在各个索引值上被调用一次,返回的值会被用作分组名称。

# 使用内置函数len进行分

groupby_obj = df.groupby(len)

六、 使用内置统计方法聚合数据

面介Pandas计方法,比如用于获取最大值和最小值的max()mix(),这些方法常用于简单地聚合分组中的数据。Series对

# key1进行分组,求每个分组的平均

df.groupby('key1').mean()

 如果内置方法无法满足聚合要求时以自定义函数,将作为参数传给agg(),实现Pandas对象的聚合运算 字典或

aggfunc,axis = 0,* args,** kwargs

 七、面向列的聚合方法

 对每一列数据应用同一个函数字典

通过agg()进行聚合,简单的方式就是给该方法的func数传入一个函数,这个函数既可以是内置的,也可以自定义的

def range_data_group(arr):

      return arr.max()-arr.min()

# 使用自定义函数聚合分组数

data_group.agg(range_data_group) 

某列数据应用不同的函数

 以将两个函数的名称放在列表中,之后在调用agg()进行合时作为参数传入即可,

# 对一列数据用两种函数聚合

data_group.agg([range_data_group, sum])

 •对不同列数据应用不同函数

如果希望对不同的列使用不同的函数,则可以在agg()方法中传入一个{"列名":"函数名"}格式的字典。

data_group.agg({'a': 'sum', 'b': 'mean', 'c': range_data_group})

 

Series对象

字典

Series对象

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值