您可以像这样在单独的进程中处理每个文件:from os import getpid
from collections import defaultdict
from glob import glob
from multiprocessing import Pool
from time import time
from functools import partial
path = '/data/personal'
print("Running with PID: %d" % getpid())
def process_file(psl, filename):
print(filename)
f = open(filename, 'r')
for n, line in enumerate(f):
line = line[:-1]
ip,reversed_domain_1= line.split('|')
reversed_domain_2 = reversed_domain_1.split('.')
reversed_domain_3 = list(reversed(reversed_domain_2))
domain = ('.'.join(reversed_domain_3))
domain = psl.get_public_suffix(domain)
return ip, domain
if __name__ == "__main__":
psl = PublicSuffixList()
d = defaultdict(set)
start = time()
files_list = glob(path)
pp = Pool(processes=cores)
func = partial(process_file, psl)
results = pp.imap_unordered(func, files_list)
for ip, domain in results:
d[ip].add(domain)
p.close()
p.join()
for ip, domains in d.iteritems():
for domain in domains:
print(ip,domain)
请注意,defaultdict是在父进程中填充的,因为如果不使用multiprocessing.Manager,则无法在多个进程之间实际共享相同的defaultdict。如果你愿意,你可以在这里做,但我认为没有必要。相反,只要任何子元素有可用的结果,我们就将其添加到父元素中的defaultdict。使用imap_unordered而不是map使我们能够按需接收结果,而不必等待所有结果就绪。唯一值得注意的是使用partial将psl列表传递给所有子进程,此外还有一个来自files_list和{}的项。在
这里有一个重要的注意事项:在这种操作中使用multiprocessing实际上可能不会提高性能。你在这里做的很多工作都是从磁盘上读取,这是无法通过多个进程来加速的;你的硬盘一次只能执行一个读取操作。一次从一堆进程获取对不同文件的读取请求实际上会减慢按顺序执行这些操作的速度,因为它可能需要不断切换到物理磁盘的不同区域,才能从每个文件中读取一行新行。现在,有可能你对每一行所做的CPU限制工作的开销足以控制I/O时间,在这种情况下,您将看到速度的提升。在