【pandas教程】分组、聚合、转换、过滤、窗口函数、分箱

这篇博客深入探讨了Pandas库中的高级操作,包括如何使用分组函数进行数据组织,通过聚合函数agg进行数据汇总,利用转换函数transform执行分析函数和分窗操作,以及应用过滤filter选择特定子集。此外,还介绍了窗口函数的使用,它类似基于序列索引的groupby,但不支持transform功能。最后,文章阐述了分箱技术,即依据预设区间或百分位数对数据进行分割。
摘要由CSDN通过智能技术生成

分组函数

# 按一列分组
df.groupby('A')
# 按多列分组
df.groupby(['A', 'B'])
# 迭代遍历分组,类似字典,获取每个分组的值
for name, group in df.groupby('A'):
    print(name, group)
# 选择一个分组,类似字段,根据分组列的值获取指定分组
df.groupby('A').get_group(value1)

聚合函数agg

# 使用内置聚合函数,使用后返回Series
df.groupby('A').sum() 或者df.groupby(['A', 'B']).sum()
# 可选用的内置聚合函数,每个函数都支持level参数
内置聚合函数 作用 备注
sum 汇总值 聚合函数
cumsum 累加 分析函数
count 统计非空值数量 聚合函数
cumcount 累积非空值数量 分析函数
max 最大值 聚合函数
cummax 累积最大值 分析函数
min 最小值 聚合函数
cummin 累积最小值 分析函数
prod 乘积 聚合函数
cumprod 累乘 分析函数
idxmax 最大值对应索引 聚合函数
idxmin 最小值对应索引 聚合函数
mean 平均值(不计空值) 聚合函数
median 算数中位数 聚合函数
mode 众数 聚合函数
size 统计值的数量 聚合函数
sum 汇总值(不计空值) 聚合函数
var 无偏方差 聚合函数
std 贝塞尔校正的样本标准偏差(不计空值) 聚合函数
sem 平均值的标准误差 聚合函数
mad 平均绝对偏差 聚合函数
skew 样本偏度(第三阶) 聚合函数
kurt 样本峰度(第四阶) 聚合函数
quantile 样本分位数(不同%的值) 聚合函数
unique 返回Series中所有非空值的唯一值向量 聚合函数
nunique 返回Series中所有非空值的唯一值数量 聚合函数
abs 绝对值 元素函数
value_count 统计直方图频次,相当于groupby().count() 聚合函数
# 推荐:使用自定义聚合函数agg,使用后返回DataFrame
def aggfun1(x):
    return len(x)
aggfun2 = lambda x: len(x)
df.groupby('A').agg(lambda x: len(x)) # 不改变原有列索引
df.groupby('A').agg([lambda x: len(x)]) # 列索引变为二层索引,底层索引为<lambda>
df.groupby('A').agg(aggfun1) # 不改变原有列索引
df.groupby('A').agg([aggfun1, aggfun2]) # 列索引变为二层索引,底层索引为aggfun1, <lambda_0>,aggfun1为函数,<lambda_0>对应lambda函数
df.group
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鱼摆摆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值