python对json处理完清理内存_python - 通过多处理或Python中的Dask减少json.loads的内存使用量 - SO中文参考 - www.soinside.com...

我有一个具有100万行和3gb数据大小的csv文件。我使用了熊猫read_csv将其转换为DataFrame,并且效果很好。

接下来,我必须格式化数据列,并根据某些列的值追加另一列。为此,我正在使用Dask DataFrame npartitions,然后逐行应用。我们的实例中有7.5gb的RAM,但是它挂起并通过MemoryError终止进程。

这是我用来格式化数据列的代码:import pandas as pd

import json

import dask.dataframe as dd

import multiprocessing

def formatting_data(data):

print("cleaning and formatting data")

data["IsBadJson"] = False

data["BadJsonStr"] = None

data = dd.from_pandas(data, npartitions=4*multiprocessing.cpu_count())

.map_partitions(lambda df: df.apply(lambda row: parse_data_to_json(row), axis=1))

.compute(scheduler='processes')

return data

下面是我们用于格式化的函数parse_data_to_json的代码def parse_data_to_json(x):

try:

if x.get("RequestSent") == "nan":

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值