【pandas教程】分组、聚合、转换、过滤、窗口函数、分箱

鱼摆摆

于 2022-04-29 22:34:56 发布

阅读量426

点赞数

分类专栏： pandas数据分析文章标签： python 数据分析

本文链接：https://blog.csdn.net/ljp7759325/article/details/124505690

版权

这篇博客深入探讨了Pandas库中的高级操作，包括如何使用分组函数进行数据组织，通过聚合函数agg进行数据汇总，利用转换函数transform执行分析函数和分窗操作，以及应用过滤filter选择特定子集。此外，还介绍了窗口函数的使用，它类似基于序列索引的groupby，但不支持transform功能。最后，文章阐述了分箱技术，即依据预设区间或百分位数对数据进行分割。

摘要由CSDN通过智能技术生成

分组函数

# 按一列分组
df.groupby('A')
# 按多列分组
df.groupby(['A', 'B'])
# 迭代遍历分组，类似字典，获取每个分组的值
for name, group in df.groupby('A'):
    print(name, group)
# 选择一个分组，类似字段，根据分组列的值获取指定分组
df.groupby('A').get_group(value1)

聚合函数agg

# 使用内置聚合函数，使用后返回Series
df.groupby('A').sum() 或者df.groupby(['A', 'B']).sum()
# 可选用的内置聚合函数，每个函数都支持level参数

内置聚合函数	作用	备注
sum	汇总值	聚合函数
cumsum	累加	分析函数
count	统计非空值数量	聚合函数
cumcount	累积非空值数量	分析函数
max	最大值	聚合函数
cummax	累积最大值	分析函数
min	最小值	聚合函数
cummin	累积最小值	分析函数
prod	乘积	聚合函数
cumprod	累乘	分析函数
idxmax	最大值对应索引	聚合函数
idxmin	最小值对应索引	聚合函数
mean	平均值（不计空值）	聚合函数
median	算数中位数	聚合函数
mode	众数	聚合函数
size	统计值的数量	聚合函数
sum	汇总值（不计空值）	聚合函数
var	无偏方差	聚合函数
std	贝塞尔校正的样本标准偏差（不计空值）	聚合函数
sem	平均值的标准误差	聚合函数
mad	平均绝对偏差	聚合函数
skew	样本偏度（第三阶）	聚合函数
kurt	样本峰度（第四阶）	聚合函数
quantile	样本分位数（不同%的值）	聚合函数
unique	返回Series中所有非空值的唯一值向量	聚合函数
nunique	返回Series中所有非空值的唯一值数量	聚合函数
abs	绝对值	元素函数
value_count	统计直方图频次，相当于groupby().count()	聚合函数

# 推荐：使用自定义聚合函数agg，使用后返回DataFrame
def aggfun1(x):
    return len(x)
aggfun2 = lambda x: len(x)
df.groupby('A').agg(lambda x: len(x)) # 不改变原有列索引
df.groupby('A').agg([lambda x: len(x)]) # 列索引变为二层索引，底层索引为<lambda>
df.groupby('A').agg(aggfun1) # 不改变原有列索引
df.groupby('A').agg([aggfun1, aggfun2]) # 列索引变为二层索引，底层索引为aggfun1, <lambda_0>，aggfun1为函数，<lambda_0>对应lambda函数
df.group