pandas读取excel文件，如果excel文件太大内存存不下怎么办？

最新推荐文章于 2025-02-09 13:20:49 发布

devid008

最新推荐文章于 2025-02-09 13:20:49 发布

阅读量3.2k

点赞数 1

分类专栏： python 文章标签： pandas excel python

本文链接：https://blog.csdn.net/devid008/article/details/131370668

版权

87 篇文章

订阅专栏

在数据分析任务中，我们常常需要读取Excel文件中的数据。但是，如果Excel文件特别大，内存无法加载整个文件，这时候pandas读取Excel文件会出现内存溢出的错误。本文介绍几种优化方法，可以有效解决这个问题。

1. 分块读取文件
我们可以将文件分成多个块，逐块读取，避免加载整个文件。例如:

python
chunksize = 1000000  
for df in pd.read_excel(file， sheet_name=sheet， chunksize=chunksize):
    # 对分块进行处理

2. 指定行数范围读取
可以只读取文件的某些行，避免读取不需要的行。例如:

python  
df = pd.read_excel(file， sheet_name=sheet， skiprows=100000， nrows=500000)  
# 跳过前10万行，读取50万行

3. 加载数据时不读索引和标题行
通过header=None和index_col=None参数:

python
df = pd.read_excel(file， sheet_name=sheet， header=None， index_col=None)

4. 选择需要的列读取
通过usecols参数只选择需要的列，避免读取无用的数据列。

python
df = pd.read_excel(file， sheet_name=sheet， usecols=["col1"， "col3"， "col6"])

5. 转换数据类型以最小化内存使用
使用dtype参数，选择合适的类型加载列的数据，避免默认使用object类型加载，这可以显著减少内存使用。

python  
df = pd.read_excel(file， sheet_name=sheet， dtype={"col1": np.int32， "col2": np.float64})

以上几种方法可以结合使用，有效减少内存使用，解析大Excel文件。通过适当优化，pandas完全有能力高效读取大文件的内容，解决各种数据分析任务。