pandas 统计分析与聚合函数深度应用指南：从基础到实战

最新推荐文章于 2025-05-20 02:20:44 发布

佑瞻

最新推荐文章于 2025-05-20 02:20:44 发布

阅读量742

点赞数 26

分类专栏：数据工程与预处理文章标签： pandas

本文链接：https://blog.csdn.net/The_Thieves/article/details/148011332

版权

数据工程与预处理专栏收录该内容

9 篇文章

订阅专栏

在数据处理与分析的日常工作中，我们经常需要快速挖掘数据的内在特征，比如计算统计指标、聚合分组数据或对数据进行排序清洗。pandas 作为 Python 数据处理的核心库，提供了一套高效的统计分析与聚合函数工具链。本文将结合实际应用场景，分享如何利用 pandas 完成从基础统计到复杂聚合的全流程操作，帮助大家提升数据处理效率。

一、描述性统计：快速把握数据全貌

当拿到一份数据集时，我们首先需要通过描述性统计了解数据的分布特征。pandas 提供了一系列便捷的方法，让我们能快速获取关键信息。

1. 基础统计方法

mean () 与 sum () 通过mean()和sum()方法，我们可以轻松计算数据的均值和总和。axis参数是关键：axis=0（默认）按列计算，axis=1按行计算。
python
```
# 计算各列均值
df.mean() 
# 计算每行总和
df.sum(axis=1) 
```
describe ()：一键生成统计报告 describe()能自动生成包含计数、分位数、标准差等的综合报告，尤其适合快速分析数值型数据。
python
```
# 生成数据框描述性统计
df.describe() 
# 自定义分位数（如5%和95%分位）
df.describe(percentiles=[0.05, 0.95]) 
```

2. 分位数与离散化：连续数据分类处理

实际场景中，我们常需要将连续数据（如年龄、价格）转换为分类数据，这时cut()和qcut()就派上用场了。

cut ()：基于数值区间分箱 按指定区间划分数据，例如将成绩分为 ABCD 四档：

python

scores = [85, 92, 78, 65, 98]
bins = [60, 70, 80, 90, 100]
labels = ['D', 'C', 'B', 'A']
categories = pd.cut(scores, bins=bins, labels=labels)

qcut ()：基于分位数分箱 按数据分布的分位数划分，确保每个箱内数据量相近，适合数据分布不均的场景：
python
```
# 按四分位数分箱
pd.qcut(scores, q=4) 
```

二、聚合与转换：定制化数据处理

1. 聚合函数高级用法

agg()方法是 pandas 聚合功能的核心，支持同时应用多个函数，甚至为不同列指定专属函数。

多函数聚合 对销售额数据同时计算总和、均值和最大值：
python
```
sales_data.agg(['sum', 'mean', 'max'])
```
按列定制聚合 对 "数量" 列求和，对 "价格" 列求中位数：
python
```
sales_data.agg({'数量': 'sum', '价格': 'median'})
```

2. 数据转换：保持结构的批量处理

transform()方法能在不改变数据结构的前提下，对每个元素应用函数，常用于数据标准化或归一化。

标准化处理（Z-Score） 机器学习预处理中常用的标准化公式：\(z = \frac{x - \mu}{\sigma}\)，用transform()实现：
python
```
df_normalized = (df - df.mean()) / df.std()
```
分组转换 按 "类别" 分组后，计算各组数据与组均值的差值：
python
```
df['差值'] = df.groupby('类别')['数值'].transform(lambda x: x - x.mean())
```

三、排序与唯一值处理：数据清洗与整理

1. 灵活排序：索引与值的双重控制

按索引排序（sort_index ()） 对时间序列数据按日期升序排列：
python
```
time_series.sort_index()
```
按值排序（sort_values ()） 按 "销售额" 降序排列，若销售额相同则按 "数量" 升序：
python
```
sales_data.sort_values(by=['销售额', '数量'], ascending=[False, True])
```

2. 唯一值与频次统计

value_counts ()：分类数据频次分析 统计用户性别分布：
python
```
user_data['性别'].value_counts()
```
nunique ()：非缺失唯一值计数 计算不重复的产品数量（排除缺失值）：
python
```
product_data['产品ID'].nunique()
```

四、实践要点：从理论到场景落地

假设我们正在分析某电商平台的订单数据，需要解决以下问题：

快速了解数据概况：用describe()查看订单金额的分布，发现最小值、中位数、均值等关键指标。
按地区聚合销售数据：按 "地区" 分组，对 "订单金额" 求和并排序，定位销售热点区域。
用户分层：根据 "消费频次" 用qcut()将用户分为 "低频"" 中频 ""高频" 三层，分析各层消费特征。
异常值处理：通过计算四分位距（IQR）识别订单金额异常值，用transform()进行盖帽处理。

python

# 按地区聚合销售额
region_sales = order_data.groupby('地区')['订单金额'].agg(['sum', 'count'])
# 消费频次分层
order_data['用户分层'] = pd.qcut(order_data['消费频次'], q=3, labels=['低频', '中频', '高频'])