玩转 Pandas 的 Groupby 操作

本文详细介绍了Pandas的Groupby操作,包括基础操作、聚合方法如count()和size(),以及agg()、apply()和transform()的用法。通过实例展示了如何按数据值分段进行分组,并提供了按年龄和性别制作交叉表的方法。
摘要由CSDN通过智能技术生成

作者:Lemon

来源:Python数据之道

玩转 Pandas 的 Groupby 操作

大家好,我是 Lemon,今天来跟大家分享下 pandas 中 groupby 的用法。

Pandas 的 groupby() 功能很强大,用好了可以方便的解决很多问题,在数据处理以及日常工作中经常能施展拳脚。

今天,我们一起来领略下 groupby() 的魅力吧。

首先,引入相关 package :

import pandas as pd
import numpy as np

groupby 的基础操作

经常用 groupby 对 pandas 中 dataframe 的各列进行统计,包括求和、求均值等。

In [2]: df = pd.DataFrame({'A': ['a', 'b', 'a', 'c', 'a', 'c', 'b', 'c'], 
   ...:                    'B': [2, 8, 1, 4, 3, 2, 5, 9], 
   ...:                    'C': [102, 98, 107, 104, 115, 87, 92, 123]})
   ...: df
   ...: 

Out[2]: 
   A  B    C
0  a  2  102
1  b  8   98
2  a  1  107
3  c  4  104
4  a  3  115
5  c  2   87
6  b  5   92
7  c  9  123

按 A 列分组(groupby),获取其他列的均值

df.groupby('A').mean()

Out[3]: 
     B           C
A                 
a  2.0  108.000000
b  6.5   95.000000
c  5.0  104.666667

按多列进行分组(groupby)

df.groupby(['A','B']).mean()

Out[4]: 
       C
A B     
a 1  107
  2  102
  3  115
b 5   92
  8   98
c 2   87
  4  104
  9  123

分组后选择列进行运算

分组后,可以选取单列数据,或者多个列组成的列表(list)进行运算

In [5]: df = pd.DataFrame([[1, 1, 2], [1, 2, 3], [2, 3, 4]], columns=["A", "B", "C"])
   ...: df
   ...: 

Out[5]: 
   A  B  C
0  1  1  2
1  1  2  3
2  2  3  4

In [6]: g = df.groupby("A")

In [7]: g['B'].mean() # 仅选择B列

Out[7]: 
A
1    1.5
2    3.0
Name: B, dtype: float64

In [8]: g[['B', 'C']].mean() # 选择B、C列

Out[8]: 
     B   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值