python 处理超大文件_python读取excel文件过大-CSDN博客

本文链接：https://blog.csdn.net/qq_41617060/article/details/130886077

文章介绍了如何使用生成器在Python中处理超大文件和Excel文件，以减少内存占用并提高程序效率。通过生成器函数逐行读取文件，避免一次性加载整个文件到内存。对于Excel文件，文章提到了openpyxl和xlrd库，并建议根据需求选择合适的库。对于非常大的文件，推荐使用如ApacheSpark这样的大数据处理工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、生成器处理超大文件

当处理超大文件时，使用生成器可以避免将整个文件读入内存中，从而减少内存占用，提高程序的效率。

生成器是一种特殊的迭代器，可以通过函数来生成一系列的值，而不需要一次性生成所有值。在处理超大文件时，我们可以编写一个生成器函数来逐行读取文件，然后将每行数据作为生成器的一个值返回。

以下是一个示例代码，展示如何使用生成器处理超大文件：

def read_large_file(file_path):
    """
    生成器函数，逐行读取超大文件
    """
    with open(file_path, 'r') as f:
        for line in f:
            yield line.strip().split(',')  # 将每行数据以列表形式返回，去除换行符和分隔符

# 使用生成器函数逐行读取超大文件
for row in read_large_file('large_table.csv'):
    # 处理每行数据
    pass

2、生成器处理超大excel文件

处理超大 Excel 文件的方法与处理超大表格文件类似，也可以使用生成器来逐行读取数据，避免将整个文件读入内存中。不过需要使用一些第三方库来处理 Excel 文件，例如 openpyxl、xlrd 等。示例代码：

import openpyxl

def read_large_excel(file_path):
    """
    生成器函数，逐行读取超大 Excel 文件
    """
    workbook = openpyxl.load_workbook(file_path)
    worksheet = workbook.active
    for row in worksheet.iter_rows(values_only=True):
        yield row

# 使用生成器函数逐行读取超大 Excel 文件
for row in read_large_excel('large_file.xlsx'):
    # 处理每行数据
    pass

代码中，使用 openpyxl 库来读取 Excel 文件，并通过 iter_rows 方法逐行读取数据。values_only=True 参数表示只返回单元格的值，而不包括格式等其他信息。

注意：openpyxl 是一个比较大的库，如果只是处理简单的 Excel 文件，建议使用 xlrd 等轻量级库来读取数据。此外，对于非常大的 Excel 文件，可能需要使用专业的数据处理工具来处理，例如 Apache Spark 等。