解决Pandas读取大文本文件导致内存溢出的问题

最新推荐文章于 2024-08-06 19:49:03 发布

偶尔也吃鸡

最新推荐文章于 2024-08-06 19:49:03 发布

阅读量6.6k

点赞数 2

分类专栏： Pandas 文章标签： Pandas Iterator

本文链接：https://blog.csdn.net/qq_41689620/article/details/95106239

版权

Pandas 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

问题描述

当使用pandas读取大文本文件时，会由于内存不足产生MemoryError异常，可以设置分块读取的方式来解决。

代码实现

import pandas as pd

# 由于数据量较大，一次性读入可能造成内存错误(Memmory Error),因而使用pandas的分块读取
def read_from_local(file_name, chunk_size=500000):
    reader = pd.read_csv(file_name, header=0, iterator=True, encoding="utf-8")
    chunks = []
    loop = True
    while loop:
        try:
            chunk = reader.get_chunk(chunk_size)
            chunks.append(chunk)
        except StopIteration:
            loop = False
            print("Iteration is stopped!")
    # 将块拼接为pandas dataFrame格式
    df_ac = pd.concat(chunks, ignore_index=True)
    
    return df_ac