Pandas | 数据分类与聚合（groupby & agg）

最新推荐文章于 2024-03-03 10:05:29 发布

jdmike

最新推荐文章于 2024-03-03 10:05:29 发布

阅读量1.3k

点赞数 3

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/RichardsZ_/article/details/108478758

版权

机器学习同时被 2 个专栏收录

34 篇文章 4 订阅

订阅专栏

Python

27 篇文章 5 订阅

订阅专栏

Pandas数据分类

set_index()统计

拿到数据后，我们希望根据某一个或多个索引将数据进行归类，以便观察数据，可采用set_index()方法


	df.set_index([‘Country’, ‘Region’], inplace=True)

例如我们拿到的Dataframe如下
在这里插入图片描述
我们希望看到根据Country，Region分类后的数据，可做如下处理

df.set_index(['Country', 'Region'], inplace=True)

在这里插入图片描述

Groupby分组

当我们拿到数据后，数据往往呈现地十分全面，甚至复杂。如何根据需求提取我们所需的数据，进行分组和聚合，是非常有效的手段！

分组方法	说明
df.groupby(‘A’)	根据‘A’列的值进行分组，返回一个groupby对象
df.groupby([‘A’,‘B’])	根据‘A’列和’B’列的值进行分组，返回一个groupby对象
df.groupby(‘A’)[‘B’].agg(‘’)	根据‘A’列的值进行分组，并选中分组后的’B’列进行聚合

groupby后得到的是分组对象，分组对象是一个可迭代的对象（Key-Values），如下面的，

for keys, values in df.groupby('xxx'):

keys是依据分类的key集合, values是对应的dataframe

聚合apply(), agg()

聚合方法	说明
agg()	mean/sum/size
df.groupby(‘A’).agg(‘mean’)	根据‘A’列的值进行分组，并将分组后的各列数据取平均值
df.groupby([‘A’,‘B’].agg(‘sum’))	根据‘A’列和’B’列的值进行分组，并将分组后的各列数据取累加和
df.groupby(‘A’)[‘B’].agg(‘size’)	根据‘A’列的值进行分组，并选中分组后的’B’列统计其成员数量

apply()	自定义函数/匿名函数lambda
	apply()方法无需分类也可使用
df.groupby(‘A’)[‘B’].apply(lambda x: len(x))	根据‘A’列的值进行分组，并选中分组后的’B’列统计其成员数量,等同于agg(‘size’)方法
df.groupby(‘A’).apply(lambda x: func(x))	根据‘A’列的值进行分组，并对分组后的元素应用自定义的func()方法
df.groupby(‘A’).apply(lambda x: x.sort_values())	根据‘A’列的值进行分组，并对分组后的元素应用dataframe的sort_values()方法

注意：apply在调用函数时，默认将DataFrame逐行或逐列作为一个参数代入调用的函数中，但有的函数需要多个参数，这时可以在apply里加上args=，将其他参数组成一个元组代入函数中。
但有个前提：被调用的函数第一个参数必须是DataFrame的行或列，args=的元组中参数位置必须和函数定义的参数位置一致

代码例程：

df = pd.DataFrame([[1, 2, 3, 4], [5, 6, 7, 8]],
                  index=list('AB'),
                  columns=list('abcd'))
print(df)
'''
	a	b	c	d
A	1	2	3	4
B	5	6	7	8
'''

def test(x, y, z):
    return x + y + z
    
print(df.apply(test, args=(10, 100)))
'''
     a    b    c    d
A  111  112  113  114
B  115  116  117  118
'''