python多线程性能低_python – Dask：非常低的CPU使用率和多线程？这是预期的吗？...

最新推荐文章于 2024-06-01 22:12:02 发布

9分饱

最新推荐文章于 2024-06-01 22:12:02 发布

阅读量349

点赞数

文章标签： python多线程性能低

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30748139/article/details/113510786

版权

我在

how to parallelize many (fuzzy) string comparisons using apply in Pandas?使用dask

基本上我做一些计算(没有写任何东西到磁盘)调用Pandas和Fuzzywuzzy(可能不会释放GIL显然,如果这有帮助),我运行如下：

dmaster = dd.from_pandas(master, npartitions=4)

dmaster = dmaster.assign(my_value=dmaster.original.apply(lambda x: helper(x, slave), name='my_value'))

dmaster.compute(get=dask.multiprocessing.get)

但是,代码的变体现在已经运行了10个小时,并且还没有结束.我在Windows任务管理器中注意到了

> RAM利用率非常低,与我的数据大小相对应

> CPU使用率每2/3秒左右从0％反弹至最高5％

>我有大约20个大小为100MB的Python进程,以及一个可能包含30GB大小的数据的Python进程(我有一个128 GB的机器和8核CPU)

问题是：预期的行为是什么？在这里设置一些dask选项显然是非常错误的吗？

当然,我明白细节取决于我到底在做什么,但也许上面的模式已经可以说出某些事情是非常错误的？

非常感谢！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python多线程性能低_python – Dask：非常低的CPU使用率和多线程？这是预期的吗？...

我在how to parallelize many (fuzzy) string comparisons using apply in Pandas?使用dask基本上我做一些计算(没有写任何东西到磁盘)调用Pandas和Fuzzywuzzy(可能不会释放GIL显然,如果这有帮助),我运行如下：dmaster = dd.from_pandas(master, npartitions=4)dmast...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。