从140秒到2秒的优化

最新推荐文章于 2022-10-31 16:59:04 发布

weixin_34194359

最新推荐文章于 2022-10-31 16:59:04 发布

阅读量102

点赞数

文章标签： python 大数据

原文链接：https://my.oschina.net/leejun2005/blog/75610

版权

2019独角兽企业重金招聘Python工程师标准>>>

从2亿个0~2,000,000,000之间的数字样本中找出不重复的记录总数，首先想到的是bloom filter，转念一想既然全都是数字，bloom filter有点太重，bitarray也许更有效，于是第一个版本出来，部分代码如下：

ba = bitarray(212**4)

cnt = 0

for i in data:

if (not ba[i]):

cnt += 1

ba[i] = True

print cnt

大概需要140s左右，觉得if (not ba[i]):这个比较费，改了第二版：

for i in data:

ba[i] = True

print ba.count()

速度有所提升，到了120s左右，开始打起多核运算的主意了，山寨了一个map-reduce，首先通过maper把数据按照除4得余分成4份：

def maper(data):

map_data = (array('I'),array('I'),array('I'),array('I'))

for i in data:

m = i % 4

map_data[m].append(i)

return map_data

然后起了一个4个进程的woker pool分别计算，最后把结果汇总：

def worker(data):

counter = bitarray(256**4)

for i in data:counter[i] = True

return counter.count()

p = Pool(4)

result = p.map(worker, data)

速度提高明显，到了50s左右，这个做法的问题是两次遍历：map的时候一次、reduce的时候又一次，于是开始想办法解决，把文件直接分开运算，不再map，把最后的结果做一下位或再计数：

p = Pool(4)

result = p.map(worker, data)

print (result[0] | result[1] | result[2] | result[3]).count()

到了26s左右，可能Python在进程间交换大数据量效率不是太好，再优化的空间有限，想起之前用Python的科学运算库做过数据挖掘，能不能用那个库试试，于是有了NumPy的版本：

import numpy as np

print len(np.unique(np.fromfile('/path/to/data.dat', np.uint32)))

全部程序就这两行，速度到了12s，让人崩溃，NumPy的底层大多是C的实现，对代码做了一个profile，发现NumPy用了sort，有点浪费，如果我用C实现一部分功能的话效果应该会不错，注意到代码中有for i in data，data中有2亿条，就循环调用了2亿次，尝试把这个调用都封装在C里面，使用C级别的循环，于是用C扩展了一下bitarray包：

static PyObject *

bitarray_fromarray(bitarrayobject *self, PyObject *pyo)

{

unsigned int *l;

idx_t n1;

Py_ssize_t nbytes, nitems, i;

if (PyObject_AsReadBuffer(pyo, (const void **)&l, &nbytes) != 0)

return Py_False;

nitems = nbytes/sizeof(unsigned int);

for (i=0; i<nitems; i++) {

*(self->ob_item + l[i] / 8) |= ((char) 1) << (l[i])%8;

}

n1 = count(self);

return PyLong_FromLongLong(n1);

}

直接读取文件buffer到bitarray，python程序就变成了：

from bitarray import bitarray

counter = bitarray(212 ** 4)

fp = open('/path/to/data.datbk', 'rb')

un = counter.fromarray(fp.read())

print un

一共5行代码，速度到了2s内，收工。

转载于:https://my.oschina.net/leejun2005/blog/75610

weixin_34194359

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。