数据分析中的常见任务是在大量数字上计算复杂的数学表达式,Python本身提供了所有必须的功能,不同库实现的效率差别很大:
1、
loops = 25000000
from math import *
a = range(1,loops)
def f(x):
return 3 * log(x) + cos(x) ** 2
%timeit r = [f(x) for x in a]
18.9 s ± 221 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
2、使用Numpy可以实现大幅优化
import numpy as np
loops = 25000000
a = np.arange(1,loops)
%timeit r = 3 * np.log(a) + np.cos(a) ** 2
1.12 s ± 10.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
3、甚至有一个库是专门用于此类任务的,这个库称作numexpr,得名于“数值表达式”(Numerical Expressions)。它编译表达式,改善NumPyl通用功能的性能,例如,在执行期间避免数组在内存中复制:
import numexpr as ne
ne.set_num_threads(1)
f = '3 * log(a) + cos(a) ** 2'
%timeit r = ne.evaluate(f)
476 ms ± 7.11 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
4、numexpr还内建并行执行单独运算的功能。使用4线程可进一步降低运行时间
ne.set_num_threads(4)
f = '3 * log(a) + cos(a) ** 2'
%timeit r = ne.evaluate(f)
218 ms ± 3.85 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)