mutilprocee.pool多进程读文件进程挂起

最新推荐文章于 2023-01-06 11:13:00 发布

酒吧炒饭

最新推荐文章于 2023-01-06 11:13:00 发布

阅读量262

点赞数

文章标签：开发语言 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42732399/article/details/126795229

版权

之前做数据处理，要对9000*12份grb文件进行分析，因为串行读文件效率太低，打算采用并行的方式，使用python mutilprocess库，使用apply_async()多进程并行读文件。

基本情况：一个grb文件大概50mb左右，在超算上面跑。最开始采用的mutilprocess.pool(multiprocessing.cpu_count())，一次可以开32个进程。文件处理方式不含有任何共享变量，不存在进程间通信。

问题：不管是使用.map_async还是啊apply_async，程序运行大概两三个小时候，从ps -l可以发现主进程状态显示未do_wait或者pipe_wait，子进程都显示为futex_状态，程序无法结束，大概只处理了3000份数据。

分析：网上查到的大部分都是进程通信的问题，和我的情况不符合，偶然翻到一篇文章提到了python多进程资源管理做的不好，我怀疑是每个进程处理完一个文件后，资源没清理完，导致占用的缓存或者内存资源越积越多，最后导致缓存内存被占满，系统自己杀死了某个子进程，导致主进程接收不到该子进程的结束消息，使整个代码卡住。

原多进程部分代码如下：

根据日志文件和ps -l发现程序已知卡在最后两行。

阅读mutilprocess官方文档，发现一个被忽视的参数multiprocessing.pool.Pool([processes[, initializer[, initargs[, maxtasksperchild[, context]]]]])

中的maxtasksperchild，可以控制每个进程执行多少次任务后自动销毁。

基于这个思路，将代码修改为：

每个进程执行20次后销毁以释放资源。经测试，代码可以正常运行至结束。问题解决。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。