多线程共享内存之DATAFRAME

最新推荐文章于 2024-06-18 16:15:35 发布

wish_you_were_there

最新推荐文章于 2024-06-18 16:15:35 发布

阅读量863

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/m0_69679476/article/details/129959564

版权

本文介绍了在Python中使用多进程时如何通过共享内存共享大型Dataframe，以提高效率。通过将Dataframe保存为二进制文件并映射到共享内存，子进程可以直接访问数据进行操作。然而，需要注意数据类型和大小的一致性，以及在数据超过系统内存时可能出现的性能问题。使用共享内存相比于Manager对象在处理大数据时更高效，但实现细节需要谨慎处理。

摘要由CSDN通过智能技术生成

用CHATGPT做了辅助，结果一团糟，这东西也没那么智能，反馈如下：

在Python中使用多进程并发执行任务时，如果需要共享数据，需要使用共享内存或其他进程间通信（IPC）机制。对于大型数据，如1GB的Dataframe，使用共享内存更为高效。
下面是一个使用Python中的共享内存模块multiprocessing.shared_memory来共享Dataframe的示例：
首先，我们可以将Dataframe保存为一个二进制文件，然后在主进程中将该文件映射到共享内存中，然后在子进程中使用该共享内存。代码示例：
在上面的代码中，我们首先将Dataframe保存为一个二进制文件data.pkl，并将其映射到共享内存中。然后，在子进程中，我们可以使用共享内存中的数据来对Dataframe进行操作。
需要注意的是，在使用共享内存时，需要确保所有进程都使用相同的数据类型和大小，否则可能会导致数据不一致或错误。
另外，如果Dataframe的大小超过了系统可用内存的大小，那么使用共享内存可能会导致性能下降，甚至出现内存溢出的问题。在这种情况下，可能需要考虑其他方法来处理数据，例如使用分布式计算框架。

import pandas as pd
import numpy as np
import multiprocessing as mp

# 将DataFrame保存为二进制文件
df = pd.DataFrame(np.random.rand(1000000, 10))
df.to_pickle('data.pkl')

# 将二进制文件映射到共享内存中
shm = mp.sha

最低0.47元/天解锁文章

wish_you_were_there

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
多线程共享内存之DATAFRAME

这里的大坑就是，.PKL这个在MP指令中的SIZE是多少，如果用代码中的，会得到左右的内存结果不相同 LVALUE RVALUE什么的，SIZE如果用DF.DIZE，也是一样的ERROR，这里必须要用DF.__LEN__()才能匹配上，搞了一下午，一直在DEBUG这个CHATGPT给我留下的坑。然后，在子进程中，我们可以使用共享内存中的数据来对Dataframe进行操作。首先，我们可以将Dataframe保存为一个二进制文件，然后在主进程中将该文件映射到共享内存中，然后在子进程中使用该共享内存。
复制链接

扫一扫