Python实例：高效数据抽取与Excel新Sheet创建

最新推荐文章于 2024-12-12 15:46:00 发布

码字仙子

最新推荐文章于 2024-12-12 15:46:00 发布

阅读量1.1k

点赞数 15

本文链接：https://blog.csdn.net/weixin_42466857/article/details/144225527

版权

本文还有配套的精品资源，点击获取

简介：本实例展示了如何利用Python的pandas库和openpyxl库处理Excel文件，包括读取数据、创建新的工作表，以及将处理后的数据保存在同一Excel文件的不同工作表中。通过简单的Python脚本，用户可以实现从原Excel表中抽取数据，并灵活地管理数据存储结构，以提高数据处理的效率和便捷性。

1. 使用pandas库处理Excel文件

在数据处理和分析的领域，pandas库因其强大的功能而广受欢迎。它是一个开放源代码的Python数据分析库，提供高性能、易于使用的数据结构和数据分析工具。对于经常处理Excel文件的分析师和工程师来说，pandas不仅可以简化数据的导入、清洗、转换、合并、分组和聚合等操作，还能方便地将处理后的数据导出到Excel文件。本章将引导您步入使用pandas处理Excel文件的精彩旅程。首先，让我们从安装pandas库开始，这是使用pandas功能的前提。

2. 安装pandas和openpyxl库

2.1 安装pandas库

在数据科学领域，pandas库是处理和分析数据的核心工具之一。它是建立在NumPy之上的一个强大的Python数据分析工具库，提供了高性能、易用的数据结构和数据分析工具。让我们深入了解如何安装pandas库。

2.1.1 通过pip安装pandas

最直接的安装pandas的方法是使用Python的包管理工具pip。以下是在不同操作系统下安装pandas的步骤：

对于Windows用户：

pip install pandas

对于Mac和Linux用户，可能会需要使用 sudo 来获取管理员权限：

sudo pip install pandas

安装完成后，您可以通过运行以下Python代码来验证pandas是否已正确安装：

import pandas as pd
print(pd.__version__)

如果安装成功，上述代码将输出当前安装的pandas版本信息。如果出现错误，可能是由于环境配置问题或权限问题。

2.1.2 验证pandas安装

在安装pandas之后，验证步骤是至关重要的，以确保后续数据处理工作不会因安装问题而受阻。为了验证pandas是否安装正确，可以创建一个简单的Python脚本，通过导入pandas库并执行一些基本操作来检查。

try:
    import pandas as pd
    # 执行一些pandas操作来确保它正常工作
    df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
    print(df)
except ImportError as e:
    print("Pandas库未安装或安装失败，请检查安装过程。错误信息：", e)

如果安装成功，上述代码将打印出一个简单的DataFrame。如果存在安装问题，将打印出错误信息。

2.2 安装openpyxl库

在处理Excel文件时，pandas可以读取和写入Excel文件，但它依赖于其他库来处理 .xlsx 文件格式。openpyxl是一个处理Excel 2010 xlsx/xlsm/xltx/xltm文件的Python库。现在，让我们了解为什么要安装openpyxl，以及如何安装它。

2.2.1 为什么需要openpyxl

Excel文件格式（特别是 .xlsx ）被广泛应用于数据存储和报告中，因此在数据科学任务中，经常需要读取和写入这些文件。虽然pandas自身支持 .xls 文件格式，但对于 .xlsx 文件则需要依赖openpyxl来处理。openpyxl提供了对Excel文件的读写支持，使得pandas能处理更复杂的Excel文件，包括带有公式、图片和宏的文件。

2.2.2 通过pip安装openpyxl

使用pip安装openpyxl的命令与安装pandas非常相似。在命令行中输入以下命令即可完成安装：

对于Windows用户：

pip install openpyxl

对于Mac和Linux用户，同样可能需要使用 sudo ：

sudo pip install openpyxl

安装完毕后，可以通过导入openpyxl模块来验证是否安装成功：

import openpyxl
print(openpyxl.__version__)

如果安装成功，上述代码将输出当前安装的openpyxl版本信息。如果出现错误，需要检查安装步骤是否正确，或网络环境是否影响了下载过程。

在安装了pandas和openpyxl之后，我们将准备好进行更深入的数据处理和分析工作。接下来，我们将学习如何读取Excel文件为pandas的DataFrame对象，这是数据分析的起点。

3. 读取Excel文件为DataFrame对象

3.1 使用pandas读取Excel文件

3.1.1 读取整张工作表

在数据处理的初期阶段，通常需要将整个Excel工作表读取为一个pandas的DataFrame对象。这个对象能够方便地进行数据操作，如筛选、排序、分组等。pandas库提供了 read_excel 函数来实现这一操作，其基本语法如下：

import pandas as pd

df = pd.read_excel(io, sheet_name=0, **kwds)

io 参数是文件路径或URL。
sheet_name 参数用于指定要读取的工作表，默认是第一个工作表（编号为0）。
**kwds 代表可选参数，可以指定很多其他选项，例如跳过某些行、列名、数据类型等。

下面是一个示例代码：

df = pd.read_excel('example.xlsx', sheet_name=0)
print(df)

此代码段将读取名为 example.xlsx 文件中的第一个工作表，并将其内容打印出来。输出结果将会是一个DataFrame对象，每列对应Excel工作表中的一列，每行对应一个数据记录。

3.1.2 读取指定的工作表

在有些情况下，可能只需要读取Excel文件中的特定工作表。 read_excel 函数中的 sheet_name 参数可以是一个字符串或者整数来指定单个工作表，也可以是一个列表来指定多个工作表。

若要读取多个工作表，可以使用如下方法：

dfs = pd.read_excel('example.xlsx', sheet_name=['Sheet1', 'Sheet3'], index_col=None)

此代码将 example.xlsx 文件中的 Sheet1 和 Sheet3 两个工作表读取为一个字典，字典的键是工作表的名称，值是对应的DataFrame对象。 index_col=None 表示不将任何列作为索引列。

通过这种方式，我们可以灵活地处理包含多个工作表的Excel文件，为后续的数据处理和分析工作提供便利。

3.2 DataFrame对象基础操作

3.2.1 查看DataFrame基本信息

一旦数据被加载到DataFrame对象中，就可以进行各种操作。首先，我们经常需要查看数据的一些基本信息，如数据维度、列名和数据类型等，这可以通过以下方法实现：

print(df.shape)  # 查看数据的行数和列数
print(df.columns)  # 查看所有的列名
print(df.dtypes)  # 查看每列的数据类型

了解这些基本信息对于接下来的数据清洗和分析工作是至关重要的。

3.2.2 数据类型转换

在读取Excel文件时，pandas通常会自动推断每列的数据类型。但有时自动推断的结果可能并不准确，这时需要我们手动进行数据类型转换。以下是一些常见的数据类型转换方法：

df['Date'] = pd.to_datetime(df['Date'])  # 将日期字符串转换为日期时间格式
df['Amount'] = df['Amount'].astype(float)  # 将金额列转换为浮点类型
df['Category'] = df['Category'].astype('category')  # 将分类列转换为类别类型

在上述代码中， to_datetime 、 astype 是pandas提供的数据类型转换函数。正确的数据类型对于数据操作和分析是十分重要的，它可以避免后续计算中出现的错误。

以上内容展示了如何读取Excel文件为DataFrame对象，并进行基础的数据操作。在了解了这些基本操作后，我们可以进一步学习如何对数据进行筛选和筛选技巧，以及进行更复杂的数据操作和分析。

4. 数据筛选和操作方法

数据筛选和操作是数据分析中极为重要的一环，它允许我们从庞大的数据集中提取所需的信息，为后续的分析和报告提供基础。在本章节中，我们将深入探讨数据筛选技巧以及如何进行高效的数据操作。

4.1 数据筛选技巧

4.1.1 条件筛选

条件筛选是根据特定条件来选择DataFrame中的数据行。在pandas中，我们可以使用 df.loc[] 和 df[df["column"] condition] 两种方式来实现条件筛选。

import pandas as pd

# 假设有一个DataFrame df代表员工信息
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32],
    'Salary': [50000, 55000, 48000, 60000]
}
df = pd.DataFrame(data)

# 使用loc进行条件筛选
young_employees = df.loc[df['Age'] < 25]

# 使用布尔索引进行条件筛选
young_employees = df[df['Age'] < 25]

在上面的代码中，我们创建了一个DataFrame，然后利用条件筛选找出年龄小于25岁的员工。 loc 方法允许我们在一行代码内完成操作，而 df["Age"] < 25 产生了一个布尔序列，用于索引。

4.1.2 索引筛选

索引筛选是通过行索引或者列索引来选择数据。例如，如果DataFrame的索引有实际意义，我们可以利用这些索引来进行筛选。

# 假设索引代表员工ID，我们想要找出ID为1和3的员工信息
specific_employees = df.loc[[1, 3], :]

这里，我们使用 loc 方法，传入一个包含索引的列表来选择特定行。注意， : 代表选择所有列。

4.2 数据操作实例

4.2.1 添加新列

在数据分析中，经常需要添加新列以展示计算结果或者衍生信息。

# 假设我们想要计算每位员工的薪资增长率
df['Salary Growth'] = df['Salary'].pct_change()

# 如果是第一行，增长率是NaN，我们可以用0来填充
df['Salary Growth'].fillna(0, inplace=True)

pct_change() 方法用来计算百分比变化， fillna() 用来填充空值。添加的新列可以与其他数据列一样使用，方便后续分析。

4.2.2 数据清洗和预处理

数据清洗是确保数据质量的重要步骤，它包括识别和处理缺失值、异常值、重复数据等问题。

# 检查并处理缺失值
df.dropna(inplace=True) # 删除包含缺失值的行
# 或者填充缺失值
df.fillna(value=df.mean(), inplace=True) # 用平均值填充数值型列的缺失值

# 检查并处理重复数据
df.drop_duplicates(inplace=True) # 删除重复行

在处理缺失值时，我们需要根据实际情况决定是删除行还是填充值。删除重复数据是为了保证数据集的唯一性，避免分析中的偏差。

以上步骤展示了如何利用pandas库进行数据的筛选和操作，这些技巧对于处理日常的Excel数据文件非常有帮助。在后续章节中，我们将继续探索pandas的高级功能，如数据透视、分组分析等。

5. 在同一Excel文件中创建新工作表

工作表是Excel文件中的数据组织单位，它们允许用户将数据分隔成不同的区域，方便进行独立管理。在数据处理和分析的过程中，经常需要创建新的工作表，用于存储经过处理的数据、临时数据或汇总数据。本章将深入探讨如何使用pandas库在同一Excel文件中创建和管理新工作表。

5.1 工作表的创建与管理

5.1.1 创建新的工作表

在pandas中，可以使用 ExcelWriter 类来创建新的工作表。这个类允许我们指定一个Excel文件，并在该文件中添加多个工作表。 to_excel 方法结合 ExcelWriter 可以用来保存 DataFrame 对象到指定的工作表中。

以下是一个创建新工作表的代码示例：

import pandas as pd

# 创建一个简单的DataFrame对象作为示例
df = pd.DataFrame({
    'A': ['foo', 'bar', 'baz'],
    'B': [1, 2, 3],
})

# 创建ExcelWriter对象
with pd.ExcelWriter('example.xlsx') as writer:
    # 将df保存到名为'Sheet1'的新工作表中
    df.to_excel(writer, sheet_name='Sheet1')

# 打开文件查看新工作表
import os
os.system('open example.xlsx')

在这个示例中，我们首先创建了一个包含两列和三行的简单 DataFrame 对象。然后我们使用 pd.ExcelWriter 创建了一个Excel文件，并在上下文管理器中打开该文件。接着，我们使用 to_excel 方法将 DataFrame 对象保存到名为"Sheet1"的工作表中。

5.1.2 删除工作表

有时候，在数据处理过程中，某些工作表可能不再需要，此时可以使用 openpyxl 库来删除这些工作表。 openpyxl 提供了非常方便的接口来操作Excel文件，包括删除工作表。

以下是删除工作表的代码示例：

from openpyxl import load_workbook

# 加载已存在的Excel文件
book = load_workbook('example.xlsx')

# 删除名为'Sheet1'的工作表
if 'Sheet1' in book.sheetnames:
    book.remove(book['Sheet1'])

# 保存修改后的Excel文件
book.save('example.xlsx')

# 打开文件查看删除后的工作表
os.system('open example.xlsx')

在这个示例中，我们首先导入 load_workbook 函数来加载已存在的Excel文件。然后，我们检查并删除名为"Sheet1"的工作表。最后，我们保存修改后的Excel文件，并打开它查看结果。

5.2 工作表间的数据操作

5.2.1 复制数据到新工作表

在数据处理中，经常需要将一个工作表的数据复制到另一个新工作表中。这可以通过读取数据到 DataFrame 对象，然后使用 to_excel 方法保存到新的工作表来实现。

示例代码如下：

import pandas as pd

# 读取数据到DataFrame
df = pd.read_excel('example.xlsx', sheet_name='Sheet2')

# 创建新的ExcelWriter对象并保存DataFrame到新工作表
with pd.ExcelWriter('example.xlsx', engine='openpyxl') as writer:
    df.to_excel(writer, sheet_name='New_Sheet')

在这个示例中，我们首先使用 pd.read_excel 读取了名为"Sheet2"的工作表数据到 DataFrame 对象。然后，我们使用 pd.ExcelWriter 创建了一个新的Excel文件（如果文件已存在，则会更新内容），并将 DataFrame 保存到新的工作表"New_Sheet"中。

5.2.2 不同工作表间的数据比较和合并

在复杂的数据处理任务中，比较和合并不同工作表的内容是一个常见需求。pandas提供了丰富的数据操作方法，可以方便地实现这一功能。

以下是一个比较和合并两个工作表数据的代码示例：

import pandas as pd

# 读取两个工作表的内容到DataFrame对象
df1 = pd.read_excel('example.xlsx', sheet_name='Sheet1')
df2 = pd.read_excel('example.xlsx', sheet_name='Sheet2')

# 合并两个DataFrame对象
# 这里使用join方法来合并，它会根据索引来合并数据
combined_df = df1.join(df2, rsuffix='_right')

# 将合并后的DataFrame保存到新工作表
with pd.ExcelWriter('example.xlsx', engine='openpyxl') as writer:
    combined_df.to_excel(writer, sheet_name='Merged_Sheet')

在这个示例中，我们首先读取了两个工作表的数据到各自的 DataFrame 对象。然后，我们使用 join 方法根据索引合并两个 DataFrame 对象，其中 rsuffix 参数用于区分重名列。最后，我们将合并后的 DataFrame 保存到新的工作表"Merged_Sheet"中。

在本章节中，我们介绍了如何在同一Excel文件中创建和管理工作表，包括创建新工作表、删除工作表、复制数据到新工作表以及如何进行不同工作表间的数据比较和合并。这些技能是进行复杂数据分析和数据管理工作中不可或缺的部分。掌握这些操作可以使我们的数据处理流程更加高效和有序。

6. 实例中的错误处理和动态路径管理

在处理Excel文件时，我们经常遇到各种意外情况，如文件损坏、路径错误或数据格式不正确等。这些情况可能会导致程序出现错误甚至崩溃。为了确保程序的健壮性和用户友好性，我们需要在编写代码时考虑到错误处理机制。此外，为了提高代码的适用性，动态路径管理也是不可或缺的一部分。本章节将深入探讨如何在pandas应用中进行有效的错误处理和动态路径管理。

6.1 错误处理机制

6.1.1 常见错误及处理方法

在使用pandas处理Excel文件时，常见的错误主要包括文件读写错误、数据类型不匹配错误、索引超出范围错误等。为了处理这些错误，我们可以使用 try-except 语句来捕获异常，并根据不同的错误类型给出相应的处理方法。

import pandas as pd

try:
    # 尝试读取一个不存在的文件
    df = pd.read_excel("nonexistent_file.xlsx")
except FileNotFoundError:
    print("文件未找到，请检查文件路径是否正确。")
except ValueError:
    print("数据处理错误，请检查数据格式是否正确。")
except Exception as e:
    print(f"发生未知错误：{e}")

在上述代码中，我们尝试读取一个不存在的文件，期望捕获到 FileNotFoundError 异常，从而给出相应的提示信息。这样用户就可以根据提示信息进行相应的操作，而不是直接面对程序崩溃的状况。

6.1.2 异常捕获实践

在异常捕获实践中，我们需要对可能出现的每一种异常进行分类和处理。为了提高代码的可读性和可维护性，可以将异常处理逻辑封装成函数。

def safe_read_excel(filepath):
    try:
        df = pd.read_excel(filepath)
        return df
    except FileNotFoundError:
        print("文件未找到，请检查文件路径是否正确。")
    except ValueError as ve:
        print(f"数据处理错误：{ve}")
    except Exception as e:
        print(f"发生未知错误：{e}")
    return None

df = safe_read_excel("sample.xlsx")

通过定义 safe_read_excel 函数，我们在读取Excel文件时就具有了异常处理能力，即使发生错误，也能够给予反馈并安全地结束函数运行。

6.2 动态路径管理

6.2.1 使用os和pathlib管理文件路径

在进行文件操作时，动态地管理文件路径可以让我们更好地适应不同的操作系统和环境。 os 模块和 pathlib 模块都是用于处理文件系统路径的工具，但 pathlib 是Python 3.4引入的现代文件路径操作库，它提供了更为直观和面向对象的路径操作方式。

import os
from pathlib import Path

# 使用os模块
os.chdir(r"C:\Users\Administrator\Desktop")
file_path = os.path.join(os.getcwd(), "sample.xlsx")

# 使用pathlib模块
path = Path.cwd() / "sample.xlsx"

print(f"使用os模块的文件路径为：{file_path}")
print(f"使用pathlib模块的文件路径为：{path}")

在上述代码中， os 模块通过 os.chdir() 改变当前工作目录，然后使用 os.path.join() 组合目录和文件名。而 pathlib 模块则通过 Path.cwd() 直接获取当前工作目录，并通过除法操作符 / 直接和文件名组合。

6.2.2 路径参数化以适应不同环境

为了使代码能够适应不同的运行环境，路径的参数化处理非常关键。我们可以通过命令行参数、配置文件或环境变量来传递文件路径参数。

import argparse

def main(args):
    file_path = args.file_path
    df = pd.read_excel(file_path)
    # 其他数据处理代码...

if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="参数化路径管理示例")
    parser.add_argument("file_path", help="请输入Excel文件路径")
    args = parser.parse_args()
    main(args)

通过使用 argparse 模块，我们可以在命令行中传递文件路径参数，这样用户就可以在运行脚本时指定不同的文件路径，从而适应不同的环境和需求。

本章节详细讲解了在使用pandas处理Excel文件时如何进行错误处理和动态路径管理，通过实例演示了如何实际应用这些技术以提高代码的健壮性和灵活性。通过合理的错误处理和路径管理，我们可以创建更为稳定和用户友好的数据处理脚本。

本文还有配套的精品资源，点击获取