python多个函数定义在一个文件_如何定义一个python多处理函数的输入来获取目录中的所有文件?...

您可以像这样在单独的进程中处理每个文件:from os import getpid

from collections import defaultdict

from glob import glob

from multiprocessing import Pool

from time import time

from functools import partial

path = '/data/personal'

print("Running with PID: %d" % getpid())

def process_file(psl, filename):

print(filename)

f = open(filename, 'r')

for n, line in enumerate(f):

line = line[:-1]

ip,reversed_domain_1= line.split('|')

reversed_domain_2 = reversed_domain_1.split('.')

reversed_domain_3 = list(reversed(reversed_domain_2))

domain = ('.'.join(reversed_domain_3))

domain = psl.get_public_suffix(domain)

return ip, domain

if __name__ == "__main__":

psl = PublicSuffixList()

d = defaultdict(set)

start = time()

files_list = glob(path)

pp = Pool(processes=cores)

func = partial(process_file, psl)

results = pp.imap_unordered(func, files_list)

for ip, domain in results:

d[ip].add(domain)

p.close()

p.join()

for ip, domains in d.iteritems():

for domain in domains:

print(ip,domain)

请注意,defaultdict是在父进程中填充的,因为如果不使用multiprocessing.Manager,则无法在多个进程之间实际共享相同的defaultdict。如果你愿意,你可以在这里做,但我认为没有必要。相反,只要任何子元素有可用的结果,我们就将其添加到父元素中的defaultdict。使用imap_unordered而不是map使我们能够按需接收结果,而不必等待所有结果就绪。唯一值得注意的是使用partial将psl列表传递给所有子进程,此外还有一个来自files_list和{}的项。在

这里有一个重要的注意事项:在这种操作中使用multiprocessing实际上可能不会提高性能。你在这里做的很多工作都是从磁盘上读取,这是无法通过多个进程来加速的;你的硬盘一次只能执行一个读取操作。一次从一堆进程获取对不同文件的读取请求实际上会减慢按顺序执行这些操作的速度,因为它可能需要不断切换到物理磁盘的不同区域,才能从每个文件中读取一行新行。现在,有可能你对每一行所做的CPU限制工作的开销足以控制I/O时间,在这种情况下,您将看到速度的提升。在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值