pandas库pd.read_excel操作详解

最新推荐文章于 2025-05-02 09:12:09 发布

无名之辈W

最新推荐文章于 2025-05-02 09:12:09 发布

阅读量1w

点赞数 14

分类专栏： python 文章标签： pandas excel

本文链接：https://blog.csdn.net/weixin_43136158/article/details/141260828

版权

python 专栏收录该内容

20 篇文章

订阅专栏

pandas库pd.read_excel操作详解

在数据处理与分析领域，pandas库作为Python中的明星库之一，因其强大的数据处理能力而受到广泛青睐。其中pd.read_excel函数更是处理Excel文件不可或缺的工具。本文将深入探讨pd.read_excel函数的各个参数，并通过具体示例来帮助读者更好地理解和运用这一功能。

pd.read_excel函数概述

pd.read_excel函数用于从Excel文件中读取数据并将其转换为DataFrame对象。这使得我们可以利用pandas库的强大功能来进行数据分析与处理。其基本语法如下：

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, skip_footer=0, convert_float=True, mangle_dupe_cols=True, na_values=None, keep_default_na=True, verbose=False, parse_dates=True, infer_datetime_format=False, keep_date_col=False, date_format=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', verbose=True, encoding=None, encoding_errors='strict', float_precision=None)

接下来，我们将详细解释每个参数的作用及应用场景。

参数详解

io: Excel文件的路径或文件对象。
- 示例：IO = 'example.xls'
sheet_name: 指定要读取的工作表名称或索引。默认值为0，表示读取第一个工作表。可以接受整数、字符串、列表或None。
- 整数/字符串：读取指定索引/名称的工作表。
- 列表：读取多个工作表，并返回一个字典，键为工作表名称，值为对应的DataFrame。
- None：读取所有工作表，并返回一个字典，键为工作表名称，值为对应的DataFrame。
- 示例：
```
# 读取指定名称的工作表
df = pd.read_excel('example.xls', sheet_name='Sheet1')

# 读取指定索引的工作表
df = pd.read_excel('example.xls', sheet_name=1)

# 读取多个工作表
dfs = pd.read_excel('example.xls', sheet_name=[0, 1])

# 读取所有工作表
all_sheets = pd.read_excel('example.xls', sheet_name=None)
```
header: 指定哪一行作为列名，默认为0（即第一行）。
- 示例：df = pd.read_excel('example.xls', header=1) 会将第二行作为列名。
index_col: 指定哪一列作为索引列，默认为None。
- 示例：df = pd.read_excel('example.xls', index_col=0) 会将第一列设为索引。
usecols: 指定要使用的列，可以是列的索引或名称。
- 示例：df = pd.read_excel('example.xls', usecols=[0, 2]) 或 df = pd.read_excel('example.xls', usecols=['姓名', '年龄'])
names: 为DataFrame中的列指定名称。
- 示例：df = pd.read_excel('example.xls', names=['Name', 'Age', 'Birth', 'Hobby', 'Relationship'])
dtype: 数据类型字典，用于指定某些列的数据类型。
- 示例：df = pd.read_excel('example.xls', dtype={'年龄': int})
parse_dates: 指定哪些列应被解析为日期格式。
- 示例：df = pd.read_excel('example.xls', parse_dates=['出生日'])
na_values: 指定哪些值应被识别为缺失值。
- 示例：df = pd.read_excel('example.xls', na_values=['NaN', 'NA'])
skiprows: 跳过的行数，默认为None。
- 示例：df = pd.read_excel('example.xls', skiprows=2) 会跳过前两行。
convert_float: 是否将非数字转换为浮点数，默认为True。
- 示例：df = pd.read_excel('example.xls', convert_float=False)
converters: 自定义转换器字典，用于指定如何转换某些列的数据类型。
- 示例：df = pd.read_excel('example.xls', converters={'年龄': str})
engine: 使用的引擎来读取Excel文件，可选值为’openpyxl’或’xlrd’等。
- 示例：df = pd.read_excel('example.xls', engine='openpyxl')
squeeze: 当解析后的DataFrame只有一列时，是否返回Series对象，默认为False。
- 示例：df = pd.read_excel('example.xls', squeeze=True)
nrows: 读取的行数，默认为None（读取所有行）。
- 示例：df = pd.read_excel('example.xls', nrows=3) 仅读取前三行。

示例代码

下面给出几个使用pd.read_excel函数的具体例子，以便更好地理解其用法：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('example.xls')

# 读取特定工作表
df_sheet1 = pd.read_excel('example.xls', sheet_name='Sheet1')

# 读取多个工作表
dfs = pd.read_excel('example.xls', sheet_name=[0, 1])

# 设置特定行为列名
df_header = pd.read_excel('example.xls', header=1)

# 指定索引列
df_index = pd.read_excel('example.xls', index_col=0)

# 选择特定列
df_usecols = pd.read_excel('example.xls', usecols=[0, 2])

# 自定义列名
df_names = pd.read_excel('example.xls', names=['Name', 'Age', 'Birth', 'Hobby', 'Relationship'])

# 指定数据类型
df_dtype = pd.read_excel('example.xls', dtype={'年龄': int})

# 解析日期
df_parse_dates = pd.read_excel('example.xls', parse_dates=['出生日'])

# 指定缺失值
df_na_values = pd.read_excel('example.xls', na_values=['NaN', 'NA'])

# 使用自定义转换器
df_converters = pd.read_excel('example.xls', converters={'年龄': str})