写程序这方面,自己不是科班出身,本科时唯一的C语言课也没有好好听讲。导致后来写代码的时候十分不规范,也缺失了许多细节,日常遇到的自己给自己挖的坑还是有必要记录一下,方便以后复盘。
就像现在,前脚写完的代码后脚就忘了怎么写了……
这段代码主要是处理了一下打文件读取过程中内存不够的问题,中间也对DataFrame进行了一系列操作,结果具体的操作怎么实现的自己已经不记得了……目前还没调试好。
import pandas as pd
import numpy as np
import gc
import os
feature = ['111,222,333,444',
'111,222,333,444',
'111,222,333,444',
'111,222,333,444',
'111,222,333,444',
'111,222,333,444']
dict_in = {'111':'yiyiyi','222':'ererer','333':'sjsjsj','444':'sisisi'}
df = pd.DataFrame(feature,columns=['test'])
def batch_in(df_in,batch,dict_in,str_in='test'):
'''分批传入,写出,处理数据,清理内存,从硬盘读取,

本文介绍了在处理大量数据时,如何通过分批处理、内存清理和文件追加来解决内存不足的问题。示例代码展示了如何利用Pandas对DataFrame进行扩列、映射操作,并结合`gc.collect()`进行内存释放,最后将数据写入CSV文件。
最低0.47元/天 解锁文章
1406

被折叠的 条评论
为什么被折叠?



