python内存持续增长_使用Python的内存使用量持续增长过大多处理.pool.imap

在进行大规模科学计算时,发现使用Python的`multiprocessing.Pool.imap`导致内存持续增长。通过创建计算对并利用8个处理器进行计算,内存逐渐耗尽。在每次循环中,新结果被添加到数据列表并与其他元素进行计算,但当循环达到40次时,系统内存耗尽。问题在于如何优化代码以减少内存使用并提高运行效率。系统环境为Python 2.7,CentOS 7,16GB内存。
摘要由CSDN通过智能技术生成

我试图用Python进行一些昂贵的科学计算。我已经将一个数据集读入一个包含18个元素的列表(数据列表),每个元素也是一个包含1500000整数的列表。

现在,我想在列表中的每对数据之间进行一些计算(data_list)。因为每个进程都需要很长时间,而且我有8个处理器要使用,所以我尝试使用multi processing中的Pool方法。在def calc_func(args):

# do some calculation, and return result and score

# len(_res) == 1500000

return _res, score

count = len(data_list)

pairs = [(i, j, data_list[i], data_list[j]) for i in range(0, count - 1) for j in range(i + 1, count)]

chunk_size, extra = divmod(len(pairs), 4 * 8)

if extra:

chunk_size += 1

pool = Pool(8)

res = pool.imap(calc_func, pairs, chunksize=chunk_size)

pool.close()

pool.join()

然后,我将结果列表按分数排序,并将第一个结果追加到数据列表中。在

^{pr2}$

然后,在数据列表中对刚刚追加的一个与另一个进行计算,并将计算结果中的第一个追加到按得分排序的数据表。这个过程需要重复60次。在loop = 0

while loop <= 60:

loop += 1

count = len(data_list)

j = count - 1

pairs = [(i, j, data_list[i], data_list[j]) for i in range(j)]

chunk_size, extra = divmod(len(pairs), 4 * 8)

if extra:

chunk_size += 1

pool = Pool(8)

res = pool.imap(calc_func, pairs, chunksize=chunk_size)

pool.close()

pool.join()

res.sort(key=lambda e: e[2], reverse=True)

data_list.append(res.pop(0))

开始时,代码运行良好。但当loop=40时,所有系统内存已被使用,每个进程的状态不是运行而是休眠,如系统监视器所示。我应该如何改进我的代码以更快地运行并使用更少的内存。在

我的Python版本是2.7,操作系统是centos7,内存16GB。在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值