解决Pandas读取大文本文件导致内存溢出的问题

问题描述

当使用pandas读取大文本文件时,会由于内存不足产生MemoryError异常,可以设置分块读取的方式来解决。

代码实现

import pandas as pd

# 由于数据量较大,一次性读入可能造成内存错误(Memmory Error),因而使用pandas的分块读取
def read_from_local(file_name, chunk_size=500000):
    reader = pd.read_csv(file_name, header=0, iterator=True, encoding="utf-8")
    chunks = []
    loop = True
    while loop:
        try:
            chunk = reader.get_chunk(chunk_size)
            chunks.append(chunk)
        except StopIteration:
            loop = False
            print("Iteration is stopped!")
    # 将块拼接为pandas dataFrame格式
    df_ac = pd.concat(chunks, ignore_index=True)
    
    return df_ac

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值