Python实战：自动办公中的Excel条件筛选与数据导出

最新推荐文章于 2024-08-27 09:24:25 发布

艾古力斯

最新推荐文章于 2024-08-27 09:24:25 发布

阅读量2k

点赞数 20

本文链接：https://blog.csdn.net/weixin_35094083/article/details/141596731

版权

本文还有配套的精品资源，点击获取 menu-r.4af5f7ec.gif

简介：Python凭借其简洁语法和强大的pandas库，在自动化办公领域广泛应用。本教程重点讲解如何使用pandas库实现Excel数据的条件筛选，并将其存入新的表。通过布尔索引、组合条件和高级筛选功能，你可以轻松处理复杂数据，提升办公效率。本教程提供详细步骤和代码示例，帮助你掌握Python在Excel数据处理中的实际应用。 Python实战示例自动办公-11 在Excel中按条件筛选数据并存入新的表.zip

1. Python自动化办公简介

Python自动化办公是指利用Python语言编写脚本或程序，来自动完成各种办公任务，如数据处理、文档生成、邮件发送等。它可以极大地提高工作效率，减少重复性劳动。

Python自动化办公的优势在于：

跨平台性： Python可以在Windows、macOS和Linux等多种操作系统上运行。
丰富的库： Python拥有大量的第三方库，如Pandas、NumPy和Openpyxl，可以轻松处理各种数据和文件格式。
简单易学： Python是一种语法简洁、易于学习的语言，即使是初学者也能快速上手。

2. pandas库简介

2.1 pandas数据结构

pandas库的核心数据结构是DataFrame和Series。

DataFrame

DataFrame是一个二维表状结构，类似于Excel工作表。它由行和列组成，行称为索引，列称为列标签。DataFrame可以存储不同数据类型的数据，包括数字、字符串、日期和布尔值。

Series

Series是一个一维数组状结构，类似于Excel中的列。它由一个索引和一个数据序列组成。Series可以存储不同数据类型的数据，但与DataFrame不同，Series中的数据类型必须相同。

2.2 pandas数据操作

pandas库提供了丰富的函数和方法来操作DataFrame和Series。

数据读取

pandas可以从各种数据源读取数据，包括CSV文件、Excel文件、SQL数据库和网络API。

import pandas as pd

# 从CSV文件读取数据
df = pd.read_csv('data.csv')

# 从Excel文件读取数据
df = pd.read_excel('data.xlsx')

数据清洗

pandas提供了各种方法来清洗数据，包括删除缺失值、处理重复值和转换数据类型。

# 删除缺失值
df.dropna()

# 处理重复值
df.drop_duplicates()

# 转换数据类型
df['column_name'] = df['column_name'].astype(int)

数据操作

pandas提供了丰富的函数和方法来操作DataFrame和Series，包括合并、连接、排序和分组。

# 合并DataFrame
df1.merge(df2, on='column_name')

# 连接DataFrame
df1.append(df2)

# 排序DataFrame
df.sort_values('column_name')

# 分组DataFrame
df.groupby('column_name')

2.3 pandas数据分析

pandas库提供了强大的数据分析功能，包括统计分析、聚合分析和可视化。

统计分析

pandas提供了各种统计函数，包括均值、中位数、标准差和相关性。

# 计算均值
df['column_name'].mean()

# 计算中位数
df['column_name'].median()

# 计算标准差
df['column_name'].std()

# 计算相关性
df['column_name1'].corr(df['column_name2'])

聚合分析

pandas提供了各种聚合函数，包括求和、求平均值、求最大值和求最小值。

# 求和
df['column_name'].sum()

# 求平均值
df['column_name'].mean()

# 求最大值
df['column_name'].max()

# 求最小值
df['column_name'].min()

可视化

pandas提供了各种可视化函数，包括直方图、散点图和折线图。

# 绘制直方图
df['column_name'].hist()

# 绘制散点图
df.plot.scatter(x='column_name1', y='column_name2')

# 绘制折线图
df['column_name'].plot()

3. Excel数据读取

3.1 使用pandas读取Excel文件

pandas库提供了 read_excel() 函数来读取Excel文件。该函数接受一个Excel文件路径作为参数，并返回一个包含Excel数据表的DataFrame。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 打印DataFrame
print(df)

逻辑分析：

pd.read_excel() 函数读取Excel文件，并将其加载到DataFrame中。
DataFrame是一个表格状的数据结构，可以存储不同类型的数据。
print(df) 命令打印DataFrame，以便查看其内容。

3.2 读取指定工作表

Excel文件可能包含多个工作表。要读取特定工作表，可以使用 sheet_name 参数。

# 读取指定工作表
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 打印DataFrame
print(df)

逻辑分析：

sheet_name 参数指定要读取的工作表名称。
如果不指定 sheet_name ，则默认读取第一个工作表。

3.3 读取指定行或列

可以使用 header 和 index_col 参数来读取指定的行或列。

# 读取指定行
df = pd.read_excel('data.xlsx', header=1)

# 打印DataFrame
print(df)

# 读取指定列
df = pd.read_excel('data.xlsx', index_col=0)

# 打印DataFrame
print(df)

逻辑分析：

header 参数指定数据表的标题行号。
index_col 参数指定数据表的索引列号。
如果不指定 header ，则默认将第一行为标题行。
如果不指定 index_col ，则默认使用行号作为索引。

4. 条件筛选（布尔索引）

4.1 布尔索引的基本原理

布尔索引是 pandas 中用于根据特定条件筛选数据的强大工具。它使用布尔值（True 或 False）来创建掩码，该掩码用于选择满足条件的行或列。

布尔索引的语法如下：

df[条件]

其中：

df 是要筛选的数据框
条件 是一个布尔表达式，它返回 True 或 False 值

4.2 使用布尔索引进行简单筛选

最简单的布尔索引形式是使用比较运算符（例如 == 、 != 、 < 、 > 、 <= 、 >= ）来比较数据框中的值。例如，要选择 age 列中大于 30 的行，可以使用以下代码：

df[df['age'] > 30]

这将返回一个包含所有 age 值大于 30 的行的新的数据框。

4.3 使用布尔索引进行复杂筛选

布尔索引还可以用于进行更复杂的筛选。可以通过使用逻辑运算符（例如 & 、 | 、 ~ ）来组合多个条件。

例如，要选择 age 列中大于 30 且 gender 列为 "male" 的行，可以使用以下代码：

df[(df['age'] > 30) & (df['gender'] == "male")]

这将返回一个包含所有满足这两个条件的行的新数据框。

4.4 布尔索引与其他筛选方法的比较

布尔索引是进行条件筛选的强大工具，与其他筛选方法（例如 query() 、 loc() 、 iloc() ）相比，它具有以下优点：

灵活性： 布尔索引允许使用复杂的逻辑表达式来创建自定义筛选条件。
速度： 布尔索引通常比其他筛选方法更快，因为它直接使用 NumPy 的布尔索引功能。
可读性： 布尔索引表达式通常比其他筛选方法更易于阅读和理解。

然而，布尔索引也有一些缺点：

复杂性： 对于复杂的筛选条件，布尔索引表达式可能变得难以阅读和维护。
不可扩展性： 布尔索引表达式对于大型数据集可能变得非常长和不可扩展。

因此，在选择筛选方法时，应根据特定需求和数据集的大小仔细权衡布尔索引的优点和缺点。

5. 条件筛选（组合条件）

5.1 使用逻辑运算符组合条件

逻辑运算符用于组合多个布尔表达式，形成更复杂的筛选条件。Python 中常用的逻辑运算符有：

and ：如果所有表达式都为 True，则结果为 True。
or ：如果任何一个表达式为 True，则结果为 True。
not ：将 True 转换为 False，将 False 转换为 True。

示例：

import pandas as pd

# 读取 Excel 文件
df = pd.read_excel('data.xlsx')

# 使用 and 运算符筛选出年龄大于 30 且性别为男性的数据
df_filtered = df[(df['Age'] > 30) & (df['Gender'] == 'Male')]

5.2 使用比较运算符组合条件

比较运算符用于比较两个表达式的值，返回一个布尔值。Python 中常用的比较运算符有：

== ：相等
!= ：不等于
> ：大于
< ：小于
>= ：大于等于
<= ：小于等于

示例：

# 使用比较运算符筛选出销售额大于 10000 且利润率大于 10% 的数据
df_filtered = df[(df['Sales'] > 10000) & (df['Profit Margin'] > 0.1)]

5.3 使用布尔索引和组合条件进行高级筛选

布尔索引和组合条件可以结合使用，进行更高级的筛选。

示例：

# 使用布尔索引和比较运算符筛选出年龄大于 30 且销售额大于 10000 的数据
df_filtered = df[df['Age'] > 30][df['Sales'] > 10000]

代码逻辑分析：

第一行使用布尔索引筛选出年龄大于 30 的数据，返回一个布尔索引数组。
第二行使用布尔索引对原数据进行筛选，只保留布尔索引数组中为 True 的行，即年龄大于 30 的行。
第三行使用比较运算符筛选出销售额大于 10000 的数据，返回一个布尔索引数组。
第四行使用布尔索引对第二行的结果进行筛选，只保留布尔索引数组中为 True 的行，即年龄大于 30 且销售额大于 10000 的行。

6. 高级筛选功能（query()、loc、iloc）**

6.1 使用query()函数进行高级筛选

query()函数是pandas库中用于高级筛选的强大工具。它允许使用类似SQL的语法来执行复杂的筛选操作。

参数说明：

expr：要应用的筛选表达式。
inplace：如果为True，则直接修改原始DataFrame，否则返回一个新的DataFrame。

示例：

import pandas as pd

df = pd.DataFrame({
    "Name": ["John", "Mary", "Bob", "Alice", "Tom"],
    "Age": [20, 25, 30, 35, 40],
    "City": ["New York", "London", "Paris", "Rome", "Berlin"]
})

# 筛选年龄大于30岁的人
df_filtered = df.query("Age > 30")

# 筛选居住在伦敦的人
df_filtered = df.query("City == 'London'")

# 筛选年龄大于30岁且居住在伦敦的人
df_filtered = df.query("Age > 30 and City == 'London'")

6.2 使用loc()函数进行行或列筛选

loc()函数用于通过行索引或列标签来筛选DataFrame。

参数说明：

rows：要选择的行的索引或标签。
columns：要选择的列的名称或标签。

示例：

# 筛选第2行到第4行的数据
df_filtered = df.loc[2:4]

# 筛选"Name"和"Age"列的数据
df_filtered = df.loc[:, ["Name", "Age"]]

# 筛选第2行到第4行且"Name"和"Age"列的数据
df_filtered = df.loc[2:4, ["Name", "Age"]]

6.3 使用iloc()函数进行行或列索引

iloc()函数用于通过整数索引来筛选DataFrame。

参数说明：

rows：要选择的行的整数索引。
columns：要选择的列的整数索引。

示例：

# 筛选第2行到第4行的数据
df_filtered = df.iloc[2:4]

# 筛选第1列和第3列的数据
df_filtered = df.iloc[:, [1, 3]]

# 筛选第2行到第4行且第1列和第3列的数据
df_filtered = df.iloc[2:4, [1, 3]]

本文还有配套的精品资源，点击获取 menu-r.4af5f7ec.gif