学习Pandas基础-CSDN博客

本文链接：https://blog.csdn.net/fen_fen/article/details/147478515

学习Pandas需要结合理论知识和实践操作，逐步掌握其核心功能。以下是详细的学习路径，从基础到进阶，帮助你系统掌握Pandas的数据处理与分析技能：

1. 基础准备

1.1 安装与环境配置

安装Pandas：通过pip或conda安装：
```
pip install pandas
```
推荐工具：Jupyter Notebook（交互式调试）或PyCharm（代码项目）。

1.2 理解核心数据结构

Series：一维带标签数组（类似字典）。
DataFrame：二维表格型数据结构（类似Excel表格）。
索引（Index）：行标签和列标签的管理机制。

示例代码：

import pandas as pd

# 创建Series
s = pd.Series([1, 3, 5, 7], name='numbers')

# 创建DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)

2. 基础操作

2.1 数据读写

读取数据：支持CSV、Excel、SQL、JSON等格式。

# 读取CSV
df = pd.read_csv('data.csv')

# 读取Excel
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 保存数据
df.to_csv('output.csv', index=False)

2.2 数据查看与筛选

查看数据：

df.head()      # 前5行
df.tail()      # 后5行
df.info()      # 数据类型、缺失值
df.describe()  # 数值列统计摘要

筛选数据：

# 选择列
df['Name']        # 单列
df[['Name', 'Age']]  # 多列

# 选择行
df.iloc[0]        # 按位置选择
df.loc[df['Age'] > 25]  # 按条件筛选

2.3 数据清洗

处理缺失值：

df.dropna()       # 删除含缺失值的行
df.fillna(0)      # 填充缺失值
df.interpolate()  # 插值填充

去重：
```
df.drop_duplicates()
```

3. 进阶操作

3.1 数据变形

合并数据：

# 纵向合并（追加行）
pd.concat([df1, df2], axis=0)

# 横向合并（追加列）
pd.concat([df1, df2], axis=1)

# SQL风格的JOIN
pd.merge(df1, df2, on='key_column', how='inner')

重塑数据：

# 长表转宽表（透视）
df.pivot(index='date', columns='category', values='value')

# 宽表转长表（融化）
pd.melt(df, id_vars='id', value_vars=['col1', 'col2'])

3.2 数据分组与聚合

分组统计：

df.groupby('group_column')['value_column'].mean()

多级聚合：

df.groupby('group_column').agg({'value1': 'sum', 'value2': 'mean'})

3.3 时间序列处理

时间类型转换：
```
df['date'] = pd.to_datetime(df['date'])
```

重采样：

df.set_index('date').resample('D').mean()  # 按天重采样

4. 实战项目练习

4.1 基础项目

数据清洗实战：
- 处理含缺失值、重复值的CSV文件。
- 参考数据集：Titanic数据集。
数据探索：
- 对某电商销售数据计算销售额总和、用户购买频率等。

4.2 进阶项目

时间序列分析：
- 分析股票价格数据，计算移动平均线。
多表关联分析：
- 合并用户行为数据和订单数据，分析用户转化率。

5. 学习资源推荐

5.1 官方文档

Pandas官方文档：最权威的学习资料，覆盖所有API。
Cheat Sheet：下载Pandas速查表随时查阅。

5.2 书籍与课程

书籍：
- 《Python for Data Analysis》（作者：Pandas创始人Wes McKinney）。
- 《Pandas Cookbook》。
在线课程：
- Kaggle的Pandas课程。
- DataCamp的Pandas课程。

5.3 练习平台

Kaggle：参与数据集竞赛（如Titanic）。
LeetCode SQL/Pandas题：刷题巩固（如LeetCode题库）。

6. 高效使用Pandas的技巧

避免逐行操作：
- 使用向量化操作（如df['col'] * 2）替代for循环。
优化内存：
- 使用df.astype()减少数据类型占用（如将float64转为float32）。
处理大数据：
- 分块读取：pd.read_csv('data.csv', chunksize=1000)。
- 使用Dask或Modin加速大数据处理。

7. 学习路线总结

阶段	目标	时间
入门	掌握Series/DataFrame、数据读写、筛选清洗	1-2周
进阶	分组聚合、合并数据、时间序列处理	2-4周
实战	完成完整数据分析项目	1-2月