python——Pandas库

最新推荐文章于 2024-08-23 09:48:05 发布

pumpkin84514

最新推荐文章于 2024-08-23 09:48:05 发布

阅读量1.1k

点赞数 22

分类专栏： python相关文章标签： python pandas 开发语言

本文链接：https://blog.csdn.net/pumpkin84514/article/details/138233690

版权

python相关专栏收录该内容

91 篇文章 0 订阅

订阅专栏

Pandas 是一个非常强大的 Python 库，专门用于数据处理和分析。在处理 Excel 文件时，它提供了简单且功能丰富的 API，使得读取、写入、筛选、修改以及分析 Excel 数据变得十分便捷。以下是一些常用的 Pandas API 及其应用场景，以及如何在复杂场景下使用它们的示例。

基础 API 及使用场景

读取 Excel 文件
- API: pandas.read_excel()
- 场景: 从 Excel 文件加载数据到 DataFrame 对象中，以便进行进一步处理。
```
import pandas as pd
df = pd.read_excel('example.xlsx', sheet_name='Sheet1')
```
写入 Excel 文件
- API: DataFrame.to_excel()
- 场景: 将 DataFrame 数据保存到 Excel 文件中。
```
df.to_excel('output.xlsx', index=False)  # index=False 避免将索引写入Excel
```

复杂场景示例

数据筛选与排序

筛选特定条件的行

filtered_df = df[df['Column_Name'] == 'SomeValue']

多条件筛选

filtered_df = df[(df['Column1'] > 100) & (df['Column2'] == 'Category')]

排序

sorted_df = df.sort_values(by=['Column_Name'], ascending=False)

数据清洗

处理缺失值

df.fillna(value=0, inplace=True)  # 用0填充缺失值

删除含有缺失值的行

cleaned_df = df.dropna(subset=['Column_Name'])

数据转换与计算

添加新列

df['New_Column'] = df['Column1'] + df['Column2']

数据类型转换

df['Column_Name'] = df['Column_Name'].astype('int')  # 将列转换为整型

分组聚合

grouped_df = df.groupby('Group_Column')['Value_Column'].sum()

复合操作

合并多个工作表到一个 DataFrame

all_sheets_df = pd.concat([pd.read_excel('example.xlsx', sheet_name=sheet) for sheet in pd.ExcelFile('example.xlsx').sheet_names], ignore_index=True)

条件性修改数据
使用 .loc 或 .mask 方法根据条件修改数据。

df.loc[df['Column_Name'] > threshold, 'New_Column'] = 'Above Threshold'

总结

Pandas 提供了丰富的方法来高效处理 Excel 文件，无论是简单的数据读写，还是复杂的清洗、转换和分析任务。在处理复杂场景时，通常需要结合多种 Pandas 函数和方法，如条件筛选、数据转换、聚合分析等，以达到数据处理目的。利用 DataFrame 的灵活性和丰富的API，可以应对几乎所有的数据处理挑战。