Python读取Excel数据-CSDN博客

本文链接：https://blog.csdn.net/shiming8879/article/details/141920389

在处理Excel数据时，Python 提供了多种强大的库来读取、处理以及分析这些数据。最常用的库之一是 pandas，它建立在 numpy、matplotlib 和 scipy 等库之上，为数据分析和操作提供了高级的、易于使用的数据结构和数据分析工具。另一个流行的库是 openpyxl，它专门用于读写Excel 2010 xlsx/xlsm/xltx/xltm文件。

一、引言

在数据科学、机器学习、财务分析等多个领域，Excel数据读取是一项基本技能。Excel以其直观的界面和强大的功能，成为数据收集和初步整理的首选工具。然而，对于复杂的数据分析任务，手动操作Excel可能既耗时又容易出错。因此，自动化地读取Excel数据变得尤为重要。Python的灵活性和强大的数据处理能力使其成为处理Excel数据的理想选择。

二、准备工作

1. 安装必要的库

在Python中读取Excel数据，首先需要安装 pandas 和 openpyxl（如果需要操作.xlsx文件）。可以通过pip命令来安装这些库：

pip install pandas openpyxl

2. Excel文件准备

确保你有一个Excel文件（如data.xlsx），其中包含了你想读取的数据。为了演示，我们可以假设这个Excel文件有一个工作表（Sheet1），其中包含了若干列数据，如姓名、年龄、性别等。

三、使用pandas读取Excel数据

1. 基本读取

pandas的read_excel函数是读取Excel文件的核心。它默认使用xlrd来读取.xls文件，但对于.xlsx文件，pandas建议使用openpyxl或xlrd（取决于你的pandas版本和安装的库）。

import pandas as pd

# 使用pandas读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 显示前几行数据
print(df.head())

这里，sheet_name参数指定了要读取的工作表名称，如果是读取第一个工作表，也可以省略此参数或将其设置为0（注意索引是从0开始的）。

2. 读取多个工作表

如果你需要一次性读取Excel文件中的所有工作表，可以将sheet_name设置为None，这会返回一个字典，键是工作表名称，值是对应的数据框（DataFrame）。

dfs = pd.read_excel('data.xlsx', sheet_name=None)

# 遍历字典并打印每个工作表的前几行
for sheet_name, df in dfs.items():
    print(f"Sheet Name: {sheet_name}")
    print(df.head())
    print("\n")

3. 指定列名和索引

有时，Excel文件的列名并不符合你的分析需求，或者你可能想要将某一列设置为DataFrame的索引。read_excel函数允许你通过header和index_col参数来指定列名和索引列。

# 假设第一行是数据的一部分，从第二行开始是列名
df = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=1)

# 假设你想将'ID'列设置为索引
df = pd.read_excel('data.xlsx', sheet_name='Sheet1', index_col='ID')

4. 读取指定区域

pandas没有直接提供读取Excel文件指定区域的函数，但你可以通过openpyxl来读取数据后，再将其转换为pandas的DataFrame。不过，对于大多数需求，使用pandas的现有功能（如skiprows、nrows等）已经足够。

四、使用openpyxl读取Excel数据

虽然pandas在处理Excel数据时非常方便，但如果你需要更细致地控制读取过程（如读取非连续的区域、处理特定单元格的样式等），那么openpyxl将是更好的选择。

1. 加载工作簿和工作表

from openpyxl import load_workbook

# 加载工作簿
wb = load_workbook('data.xlsx')

# 获取工作表
sheet = wb['Sheet1']

2. 读取单元格数据

openpyxl允许你通过行号和列号（或列名，如果定义了）来访问单元格数据。

# 通过行号和列号读取
cell_value = sheet.cell(row=1, column=2).value

# 如果设置了列名，并且希望通过列名访问（这通常需要额外处理）
# 例如，我们假设第一行是列名，我们可以遍历它们来找到我们想要的列
col_names = [cell.value for cell in sheet[1]]  # 假设第一行是列名
column_index = col_names.index('特定列名') + 1  # 索引从1开始
cell_value = sheet.cell(row=2, column=column_index).value

3. 读取整行或整列

# 读取整行
row_values = [cell.value for cell in sheet[1]]  # 读取第一行的所有值

# 读取整列（假设第一列是A列）
column_values = [sheet[f'A{i}'].value for i in range(1, sheet.max_row + 1)]

4. 读取数据为列表或字典

为了将数据从openpyxl工作表转换为列表或字典（类似pandas DataFrame的结构），你可能需要编写一些额外的代码来遍历行和列，并收集数据。

五、性能与兼容性

1. 性能

对于大型Excel文件，pandas和openpyxl的性能可能会有所不同。pandas在处理大量数据时通常更高效，因为它将数据加载到内存中，并提供了向量化操作来加速计算。然而，如果你的机器内存有限，或者你只需要读取文件的一小部分，那么openpyxl可能更适合。

2. 兼容性

pandas和openpyxl都支持较新版本的Excel文件（.xlsx），但pandas在早期版本中可能依赖xlrd来读取.xls文件。从pandas 1.2.0版本开始，xlrd不再支持.xlsx文件，如果你需要读取.xls文件，请确保安装了适当版本的xlrd（或考虑将文件转换为.xlsx）。

六、结论

Python提供了多种方法来读取Excel数据，其中pandas和openpyxl是最常用的两个库。pandas以其易用性和强大的数据处理能力而广受欢迎，适合大多数数据分析任务。而openpyxl则提供了对Excel文件更细粒度的控制，适合需要直接操作单元格、行、列或样式的场景。选择哪个库取决于你的具体需求和个人偏好。希望本文能帮助你更好地理解如何在Python中读取Excel数据。