Python处理大数据

最新推荐文章于 2024-07-21 09:42:49 发布

weixin_34068198

最新推荐文章于 2024-07-21 09:42:49 发布

阅读量5.2k

点赞数

文章标签： python 大数据

起因

Python处理一下数据，大概有六七个G，然后再存到另外一个文件中，单线程跑起来发现太慢了，数据总量大概是千万行的级别，然后每秒钟只能处理不到20行……遂想怎么提高一下速度

尝试1-multiprocessing

代码如下：

from multiprocessing.dummy import Pool as ThreadPool

pool = ThreadPool(20)
pool.map(func_name, args)
pool.close()
pool.join()

这里参考了这篇文章，然后尝试了一下，发现速度并没有多少提示，看了一下资源使用率，只占满了1个核，不能满足要求

尝试2-dask

dask是一个用于大规模数据存储与读取、并行计算的库，项目地址：https://github.com/dask

代码如下：

from dask import delayed

import dask.bag as db
L = []
for fn in encrypt_files:
    b = db.read_text(fn)
    a = delayed(decrypt_file)(fn)          # Delay execution of function
    L.append(a)
result = delayed(L)
result.compute()

这个地方参考了这篇文章，但是尝试了一下，还是只跑了一个核，依然失败

尝试3-pp

pp也是并行计算的库，项目地址：http://www.parallelpython.com/

代码如下：

cpu_num = 1
job_server = pp.Server(cpu_num)
a =  []
for f in fn:
    a.append(job_server.submit(fun_name, (f, ), (fun_1, fun_2, ), ('sys', 'datetime', 'pp', )))
for x in a:
tmp = x()

这里参考这篇文章，测试了一下，可以跑满多个核心，其使用的CPU核心数量就是设定的那个数量。

但是也存在一个问题，就是程序跑一段时间后就会效率下降，监控一下CPU发现也只剩下一个核心在跑了，目前还不知道是什么原因，也没有深究