python分块处理功能_python – 从大型文件分块数据进行多处理?

当fileobj很大时,list(file_obj)可能需要大量的内存.我们可以通过使用

itertools来根据需要抽出大量的线路来减少内存需求.

特别是我们可以使用

reader = csv.reader(f)

chunks = itertools.groupby(reader, keyfunc)

将文件拆分成可处理的块,和

groups = [list(chunk) for key, chunk in itertools.islice(chunks, num_chunks)]

result = pool.map(worker, groups)

让多处理池一次处理num_chunks块.

通过这样做,我们只需要足够的内存来在内存中保存几个(num_chunks)块,而不是整个文件.

import multiprocessing as mp

import itertools

import time

import csv

def worker(chunk):

# `chunk` will be a list of CSV rows all with the same name column

# replace this with your real computation

# print(chunk)

return len(chunk)

def keyfunc(row):

# `row` is one row of the CSV file.

# replace this with the name column.

return row[0]

def main():

pool = mp.Pool()

largefile = 'test.dat'

num_chunks = 10

results = []

with open(largefile) as f:

reader = csv.reader(f)

chunks = itertools.groupby(reader, keyfunc)

while True:

# make a list of num_chunks chunks

groups = [list(chunk) for key, chunk in

itertools.islice(chunks, num_chunks)]

if groups:

result = pool.map(worker, groups)

results.extend(result)

else:

break

pool.close()

pool.join()

print(results)

if __name__ == '__main__':

main()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值