我试图用Python进行一些昂贵的科学计算。我已经将一个数据集读入一个包含18个元素的列表(数据列表),每个元素也是一个包含1500000整数的列表。
现在,我想在列表中的每对数据之间进行一些计算(data_list)。因为每个进程都需要很长时间,而且我有8个处理器要使用,所以我尝试使用multi processing中的Pool方法。在def calc_func(args):
# do some calculation, and return result and score
# len(_res) == 1500000
return _res, score
count = len(data_list)
pairs = [(i, j, data_list[i], data_list[j]) for i in range(0, count - 1) for j in range(i + 1, count)]
chunk_size, extra = divmod(len(pairs), 4 * 8)
if extra:
chunk_size += 1
pool = Pool(8)
res = pool.imap(calc_func, pairs, chunksize=chunk_size)
pool.close()
pool.join()
然后,我将结果列表按分数排序,并将第一个结果追加到数据列表中。在
^{pr2}$
然后,在数据列表中对刚刚追加的一个与另一个进行计算,并将计算结果中的第一个追加到按得分排序的数据表。这个过程需要重复60次。在loop = 0
while loop <= 60:
loop += 1
count = len(data_list)
j = count - 1
pairs = [(i, j, data_list[i], data_list[j]) for i in range(j)]
chunk_size, extra = divmod(len(pairs), 4 * 8)
if extra:
chunk_size += 1
pool = Pool(8)
res = pool.imap(calc_func, pairs, chunksize=chunk_size)
pool.close()
pool.join()
res.sort(key=lambda e: e[2], reverse=True)
data_list.append(res.pop(0))
开始时,代码运行良好。但当loop=40时,所有系统内存已被使用,每个进程的状态不是运行而是休眠,如系统监视器所示。我应该如何改进我的代码以更快地运行并使用更少的内存。在
我的Python版本是2.7,操作系统是centos7,内存16GB。在